超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本

超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本

感谢B站UP主 哈喽鹏程!!!

目录

  • 0. B站课程链接 和 搭建数据仓库资源下载
  • 1. 项目介绍及
    • 1.1项目介绍
    • 1.2 数据仓库架构
    • 1.3 环境规划
    • 1.4 整体开发流程
  • 2. 环境准备01-02(虚拟机和Xshell)
    • 2.1 软件下载
    • 2.2 安装Virtual Box及导入OVA镜像
    • 2.3 修改虚拟机静态IP地址
    • 2.4 SSH链接虚拟机
  • 3. 环境搭建03 (脚本准备)
    • 3.1 安装xshell上传组件 lrzsz
  • 4. 环境搭建04 (集群安装)
    • 4.1 安装Hadoop
    • 4.2 安装MYSQL
    • 4.3 安装Hive
    • 4.4 安装Sqoop
    • 4.5 安装 Presto
  • 5. 项目流程&数据生成
  • 6. ETL数据导入
  • 7. ODS层创建&数据接入
  • 8. DWD层创建&数据接入
  • 9. DWS层创建&数据接入
  • 10. ADS层复购率统计
  • 11. ADS层数据导出
  • 12. Azkaban自动化调度
  • 13. 结果展示
  • 14. 课后作业
  • 15. 更换IP后所需要做的操作
  • 16. 如何设置静态IP地址
  • 17. 常见问题(未完持续更新中,欢迎补充!)

0. B站课程链接 和 搭建数据仓库资源下载

下载UP主 哈喽鹏程 给的资源镜像及脚本包

课程链接:https://www.bilibili.com/video/BV1qv411y7Wv/

下载连接:

数据仓库的课件:
链接:https://pan.baidu.com/s/1_B2FPJYbHR-qq-5Q-Xfamw/?pwd=d3a9
提取码:d3a9

数据仓库的实验数据,资源镜像及脚本包:

链接:https://pan.baidu.com/s/1zSkL1YWa6wGkKrUW-Zl8Yw/?pwd=fwpq

提取码:fwpq

数据仓库的automaticDeploy项目代码:
链接:https://pan.baidu.com/s/1qspiJ8LbrSr58pg84ICRUA/?pwd=7nff
提取码:7nff

备用链接:

数据仓库的实验数据,资源镜像及脚本包:

链接:https://pan.baidu.com/s/1WZsfADEGUlD1U7LcEf2dww/?pwd=ik61

提取码:ik61

数据仓库的资源镜像及脚本包和automaticDeploy项目代码(全):

OneDrive链接

1. 项目介绍及1.1项目介绍

图片[1] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

1.2 数据仓库架构

图片[2] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

1.3 环境规划

图片[3] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

1.4 整体开发流程

图片[4] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

2. 环境准备01-02(虚拟机和Xshell)2.1 软件下载

安装以下软件:

  • 虚拟机软件: Virtual Box, 下载链接: https://www.virtualbox.org/

  • 远程联机软件: Xshell (也可以使用其他软件, 推荐使用FinalShell,我是用的是FinalShell)

Virtual Box**, **下载链接: https://www.virtualbox.org/

XShell,下载链接:https://www.xshell.com/zh/xshell/

FinalShell, 下载链接:http://www.hostbuf.com/t/988.html

下载UP主 哈喽鹏程 给的资源镜像及脚本包

2.2 安装Virtual Box及导入OVA镜像

官网下载安装包,一路next就行,可以更改安装路径

图片[5] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

图片[6] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

图片[7] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

图片[8] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

node02,node03同样的操作

虚拟机第一次打开的时候可能会有网络报错,这个时候需要操作一下

图片[9] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

这里需要手动选择一次网卡,注意是一定要再选择一次

图片[10] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

然后可以开启虚拟机了

三台虚拟机用户名及密码进入虚拟机

node01 root 123456
node02 root 123456
node03 root 123456

2.3 修改虚拟机静态IP地址

windows下查看IP地址

win+r 然后输入cmd 回车,打开命令行窗口,输入ifconfig查看主机ip地址

例如:

192.168.192.175
本地链接 IPv6 地址. . . . . . . . : fe80::8ecd:4848:96f2:2659%6
IPv4 地址 . . . . . . . . . . . . : 192.168.192.175
子网掩码 . . . . . . . . . . . . : 255.255.255.0
默认网关. . . . . . . . . . . . . : fe80::40a2:4aff:feb4:7d31%6
192.168.192.165

在得到主机的IP地址后,分别对三台虚拟机node01node02node03进行修改

例如我的IP为192.168.192.175,则修改以下内容:

node01中的ifcfg-enp0s3文件中IPADDR=192.168.192.176
node02中的ifcfg-enp0s3文件中IPADDR=192.168.192.177
node03中的ifcfg-enp0s3文件中IPADDR=192.168.192.178
node02node03中的GATEWAY=192.168.192.1

修改配置文件 ifcfg-enp0s3

[root@node01 ~]# vim /etc/sysconfig/network-scripts/ifcfg-enp0s3[root@node01 ~]# systemctl restart network[root@node02 ~]# vim /etc/sysconfig/network-scripts/ifcfg-enp0s3[root@node02 ~]# systemctl restart network[root@node03 ~]# vim /etc/sysconfig/network-scripts/ifcfg-enp0s3[root@node03 ~]# systemctl restart network

更新配置 systemctl restart network

注意node01没有GATEWAY,node02node03有GATEWAY

图片[11] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

2.4 SSH链接虚拟机

这里使用 FinalShell SSH连接虚拟机

node01配置如下, node02和node03同理

图片[12] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

3. 环境搭建03 (脚本准备)

wget https://github.com/Mtlpc/automaticDeploy/archive/master.zip

或者直接去github下载 https://github.com/Mtlpc/automaticDeploy (建议直接去下载然后上传到虚拟机, 如果你使用的是 FinalShell 可以直接上传, 如果使用的是Xshell, 则需安装上传组件, 安装方法在文章后面)

将下载好的文件解压到 /home/hadoop 下,并将该文件的文件名改成 automaticDeploy,否则运行会报错

以下是 automaticDeploy 中的文件

[root@node01 ~]# cd /home/hadoop/[root@node01 hadoop]# unzip automaticDeploy.zip# 给予可执行权限[root@node01 hadoop]# chmod +x /home/hadoop/automaticDeploy/hadoop/* [root@node01 hadoop]# /home/hadoop/automaticDeploy/systems/*# 文件内容[root@node01 hadoop]# ls automaticDeploy/configs.txt  frames.txt  hadoop  host_ip.txt  logs.sh  README.md  systems

configs.txt 文件内容如下:

# Mysql相关配置mysql-root-password DBa2020* ENDmysql-hive-password DBa2020* ENDmysql-drive mysql-connector-java-5.1.26-bin.jar END# azkaban相关配置azkaban-mysql-user root ENDazkaban-mysql-password DBa2020* ENDazkaban-keystore-password 123456 END

host_ip.txt 文件内容如下:

这个需要配置成自己的3个nodeip

192.168.31.41 node01 root 123456192.168.31.42 node02 root 123456192.168.31.43 node03 root 123456

farames.txt 文件内容如下:

# 通用环境jdk-8u144-linux-x64.tar.gz trueazkaban-sql-script-2.5.0.tar.gz true# Node01hadoop-2.7.7.tar.gz true node01# Node02mysql-rpm-pack-5.7.28 true node02azkaban-executor-server-2.5.0.tar.gz true node02azkaban-web-server-2.5.0.tar.gz true node02presto-server-0.196.tar.gz true node02# Node03apache-hive-1.2.1-bin.tar.gz true node03apache-tez-0.9.1-bin.tar.gz true node03sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz true node03yanagishima-18.0.zip true node03# Mutiapache-flume-1.7.0-bin.tar.gz true node01,node02,node03zookeeper-3.4.10.tar.gz true node01,node02,node03kafka_2.11-0.11.0.2.tgz true node01,node02,node03

3.1 安装xshell上传组件 lrzsz

当然如果不使用Xshell的话, 使用FinalShell就可以不用安装, FinalShell自带文件上传组件

[root@node01 automaticDeploy]# yum install lrzsz -y

上传 frames.zip 压缩包

[root@node01 ~]# cd ~[root@node01 ~]# unzip frames.zip -d /home/hadoop/automaticDeploy/[root@node01 ~]# ssh root@192.168.133.177 "mkdir /home/hadoop"[root@node01 ~]# ssh root@192.168.133.178 "mkdir /home/hadoop"

修改 automaticDeploy 文件夹下的 host_ip.txt 文件, 修改结果如下

这个需要配置成自己的3个nodeip

192.168.192.176 node01 root 123456192.168.192.177 node02 root 123456192.168.192.178 node03 root 123456

automaticDeploy 通过scp命令拷贝到 node02node03

# 将修改后的automaticDeploy复制到node02,node03[root@node01 hadoop]# scp -r /home/hadoop/automaticDeploy/ root@192.168.192.177:/home/hadoop/[root@node01 hadoop]# scp -r /home/hadoop/automaticDeploy/ root@192.168.192.178:/home/hadoop/

拷贝完成后, 可以去 node02 , node03 上的 /home/hadoop/ 路径下进行确认

4. 环境搭建04 (集群安装)

恭喜你完成了以上操作, 到这一步正式开始环境搭建

# 分别在node01,node02,node03运行批处理脚本 batchOperate.sh 进行初始化# 更新yum源, 免密钥登入,安装JDK,配置HOST # node01[root@node01 ~]# cd automaticDeploy[root@node01 automaticDeploy]# cd systems/[root@node01 systems]# ./batchOperate.sh# node02[root@node02 ~]# cd automaticDeploy/systems/[root@node02 systems]# ./batchOperate.sh# node03[root@node03 ~]# cd automaticDeploy/systems/[root@node03 systems]# ./batchOperate.sh

验证三台虚拟机是否能够互相连接,

注意: 每连完一台虚拟机后都要退出, 然后再连接另一台

# 分别SSH另外两台虚拟机, exit 退出SSH# 示例:  [root@node02 ~]# exit# node01[root@node01 systems]# ssh node02[root@node01 systems]# ssh node03# node02[root@node02 systems]# ssh node01[root@node02 systems]# ssh node03# node03[root@node03 systems]# ssh node01[root@node03 systems]# ssh node02

脚本免密登录失败的话,可以手动进行免密登录操作

# 脚本免密登录失败的话,可以手动进行免密登录操作# 以下为示例[root@node01 ~]# ssh-copy-id node02

4.1 安装Hadoop

分别在三台虚拟机上依次执行

[root@node01 hadoop]# ./installHadoop.sh[root@node02 hadoop]# ./installHadoop.sh[root@node03 hadoop]# ./installHadoop.sh

安装完成后, 更新环境变量

[root@node01 hadoop]# source /etc/profile[root@node02 hadoop]# source /etc/profile[root@node03 hadoop]# source /etc/profile

node01 上初始化 hadoop

[root@node01 hadoop]# hadoop namenode -format

node01 上启动 hadoop 集群

[root@node01 ~]# start-all.sh

jps查看是否运行成功, node01有6个进程

[root@node01 ~]# jps6193 NameNode6628 SecondaryNameNode7412 Jps6373 DataNode6901 ResourceManager7066 NodeManager

node02

[root@node02 ~]# jps5952 NodeManager6565 Jps5644 DataNode

node03

[root@node03 ~]# jps6596 Jps5594 DataNode5902 NodeManager

进行到这一步, hadoop已经安装成功

可以打开浏览器,访问 node0150070 端口, 进入hadoop的web界面

图片[13] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL图片[14] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL4.2 安装MYSQL

node02 上安装 MYSQL

[root@node02 hadoop]# ./installMysql.sh

MYSQL安装成功后, 运行MYSQL

[root@node02 hadoop]# mysql -uroot -pDBa2020*mysql> show databases;mysql> show databases;+--------------------+| Database           |+--------------------+| information_schema || azkaban            || hive               || mysql              || performance_schema || sys                |+--------------------+6 rows in set (0.01 sec)

4.3 安装Hive

node03 上安装 Hive, 安装过程会自动安装 Tez

[root@node03 hadoop]# ./installHive.sh

如果是INFO信息报错, 可以不用管

4.4 安装Sqoop

接着在 node03 上安装 Sqoop

[root@node03 hadoop]# ./installSqoop.sh[root@node03 hadoop]# source /etc/profile

4.5 安装 Presto

分别在node01,node02, node03 上安装 Presto

Presto服务端口为8080

# Presto服务端口为8080[root@node01 hadoop]# ./installPresto.sh[root@node02 hadoop]# ./installPresto.sh[root@node03 hadoop]# ./installPresto.sh

,接着分别在node01,node02, node03上安装Azkaban

[root@node01 hadoop]# ./installAzkaban.sh[root@node02 hadoop]# ./installAzkaban.sh[root@node03 hadoop]# ./installAzkaban.sh

为Presto安装一个插件,带来可视化的效果

Yanagishima服务端口为7080

# Yanagishima服务端口为7080[root@node03 hadoop]# ./installYanagishima.sh

分别在node01,node02,node03上更新环境变量

# 分别在node01,node02,node03运行更新环境变量[root@node01 hadoop]# source /etc/profile[root@node02 hadoop]# source /etc/profile[root@node03 hadoop]# source /etc/profile

5. 项目流程&数据生成

图片[15] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

创建数据库mall

# 导入临时环境变量[root@node01 hadoop]# export MYSQL_PWD=DBa2020*[root@node01 hadoop]# mysql -uroot -e "create database mall;"

进入到 /home 目录下

[root@node02 hadoop]# cd /home/

上传生成数据脚本

图片[16] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

将数据生成脚本上传到数据库中

[root@node02 home]# mysql -uroot mall < /root/1建表脚本.sql[root@node02 home]# mysql -uroot mall < /root/2商品分类数据插入脚本.sql[root@node02 home]# mysql -uroot mall < /root/3函数脚本.sql[root@node02 home]# mysql -uroot mall use mall;mysql>CALL init_data('2020-08-29',300,200,300,False);mysql>select count(1) from user_info; mysql>show tables;

生成了300个订单, 200个用户, 300个商品,False不删除数据

6. ETL数据导入

[root@node03 ~]# mkdir -p /home/warehouse/shell[root@node03 shell]# cd  /home/warehouse/shell/[root@node03 shell]# vim sqoop_import.sh[root@node03 shell]# chmod +x sqoop_import.sh[root@node03 shell]# ./sqoop_import.sh all 2020-08-29

网页可视化查看数据是否导入 http://192.168.192.176:50070/

图片[17] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

一共是8张表, 如果没有8张表的话, 建议多运行 ./sqoop_import.sh all 2020-08-29 命令几次

到这里,表示我们ETL任务已经成功了

7. ODS层创建&数据接入

启动Hive

# 启动Hive[root@node03 shell]# hive --service hiveserver2 &

启动Hive的metastore服务

# 启动Hive的metastore[root@node03 shell]# hive --service metastore &

如果这里报错 拒绝连接 , MSQL拒绝连接, 可能由于网络不通畅的问题引起, 在node03上试一下能不能连接到node02 , 连接不了的话可以重启 node02 的网络服务, systemctl restart network

[root@node02 ~]# systemctl restart network

ODS层创建&数据导入

# ODS层创建&数据导入[root@node03 ~]# cd /home/warehouse[root@node03 warehouse]# mkdir sql/[root@node03 warehouse]# cd sql/[root@node03 sql]# vim ods_ddl.sql
[root@node03 sql]# hive -f /home/warehouse/sql/ods_ddl.sql

如果很长时间都没有出结果, 可以 Ctrl + c 终止

查看刚刚Hive进行的两个服务

[root@node03 sql]# jps2378 NodeManager2133 DataNode7288 RunJar7210 RunJar7646 Jps[root@node03 sql]# jps -m...7288 RunJar       .... /... /... / ....... / hadoop.hive.metastore.HiveMetaStore...# kill metastore服务[root@node03 sql]# kill -9 7288# 然后再重启 metastore, metasore服务需要连接mysql服务, 所以需要与node02网络通畅[root@node03 sql]# hive --service metastore &# 没有报错,重新执行 hive -f /home/warehouse/sql/ods_ddl.sql[root@node03 sql]# hive -f /home/warehouse/sql/ods_ddl.sql

执行完后,进入Hive查看, 一共8张表

## 进入hive[root@node03 shell]# hivehive>use mall;OKTime taken: 0.55 secondshive>show tables;hive>exit;

数据有了,然后完成数据的导入

[root@node03 shell]# cd ..[root@node03 shell]# cd shell/# 创建或上传 obs_db.sh[root@node03 shell]# vim obs_db.sh[root@node03 shell]# chmod +x obs_db.sh[root@node03 shell]# ./ods_db.sh 2020-08-29

执行完成后,进入Hive查看数据是否导入

## 进入hive[root@node03 shell]# hivehive> use mall;OKTime taken: 0.55 secondshive> show tables;hive> select count(1) from ods_user_info; Query ID = root_20230327220623_2ce7b554-c007-4d37-b282-87a3227c2f16Total jobs = 1Launching Job 1 out of 1Status: Running (Executing on YARN cluster with App id application_1679925264749_0002)--------------------------------------------------------------------------------        VERTICES      STATUS  TOTAL  COMPLETED  RUNNING  PENDING  FAILED  KILLED--------------------------------------------------------------------------------Map 1 ..........   SUCCEEDED      2          2        0        0       0       0Reducer 2 ......   SUCCEEDED      1          1        0        0       0       0--------------------------------------------------------------------------------VERTICES: 02/02  [==========================>>] 100%  ELAPSED TIME: 7.56 s     --------------------------------------------------------------------------------OK200Time taken: 9.383 seconds, Fetched: 1 row(s)# 200条数据hive> exit;

8. DWD层创建&数据接入

创建并执行dws_ddl.sql

[root@node03 shell]# cd /home/warehouse/sql/[root@node03 sql]# vim dws_ddl.sql创建或上传 dwd_ddl.sql[root@node03 warehouse]# hive -f /home/warehouse/sql/dwd_ddl.sql

创建并执行dwd_db.sh

[root@node03 shell]# cd /home/warehouse/shell/# 创建或上传 dwd_db.sh[root@node03 shell]# vim dwd_db.sh[root@node03 shell]# chmod +x dwd_db.sh[root@node03 shell]# ./dwd_db.sh 2020-08-29

执行完成后,进入Hive查看数据是否接入

## 进入hive[root@node03 shell]# hivehive>use mall;hive>show tables;hive>select * from dwd_sku_info where df='2020-08-29' limit 2;hive> exit;

9. DWS层创建&数据接入

创建并执行dws_ddl.sql

# DWS层创建&数据接入 node03[root@node03 shell]# cd /home/warehouse/sql/[root@node03 shell]# vim dws_ddl.sql[root@node03 sql]# hive -f /home/warehouse/sql/dws_ddl.sql

创建并执行dws_db.sh

[root@node03 sql]# cd ../shell/[root@node03 shell]# vim dws_db.sh[root@node03 shell]# chmod +x dws_db.sh[root@node03 shell]# ./dws_db.sh 2020-08-29

执行完成后,进入Hive查看数据是否接入

[root@node03 shell]# hivehive> use mall;hive> show databases;hive> select * from dws_user_action where dt="2020-08-29" limit 2;OKSLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J: Defaulting to no-operation (NOP) logger implementationSLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.1       3       1593    2       665     2020-08-2910      1       434     1       434     2020-08-29Time taken: 0.35 seconds, Fetched: 2 row(s)#  !!! 注意这里的SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder不用管hive> exit;

10. ADS层复购率统计

创建并执行ads_sale_ddl.sql

# ADS层复购率统计 node03[root@node03 shell]# cd /home/warehouse/sql/[root@node03 shell]# vim ads_sale_ddl.sql[root@node03 sql]# hive -f /home/warehouse/sql/ads_sale_ddl.sql

创建并执行ads_sale.sh

[root@node03 sql]# cd /home/warehouse/shell/[root@node03 shell]# vim ads_db.sh[root@node03 shell]# chmod +x ads_sale.sh[root@node03 shell]# ./ads_sale.sh 2020-08-29[root@node03 shell]# hivehive> use mall;hive> exit;

11. ADS层数据导出

创建并执行mysql_sale.sql

# ADS层数据导入 # node02[root@node02 ~]# mkdir -p /home/warehouse/sql[root@node02 sql]# vim mysql_sale.sql[root@node02 sql]# export MYSQL_PWD=DBa2020*[root@node02 sql]# mysql -uroot mall  use mall;mysql> show tables;+-------------------------------+| Tables_in_mall                |+-------------------------------+| ads_sale_tm_category1_stat_mn || base_category1                || base_category2                || base_category3                || order_detail                  || order_info                    || payment_info                  || sku_info                      || user_info                     |+-------------------------------+9 rows in set (0.00 sec)mysql> exit;

创建并执行sqoop_export.sh

# node03[root@node03 ~]# cd /home/warehouse/shell/[root@node03 shell]# vim sqoop_export.sh[root@node03 shell]# chmod +x sqoop_export.sh[root@node03 shell]# ./sqoop_export.sh all

如果这里报错 拒绝连接 MYSQLIO的问题, 一般这个拒绝连接错误都是MYSQL的问题, 可能由于网络不通畅的问题引起, 重启 node02 的网络服务, systemctl restart network

# node02[root@node02 sql]# systemctl restart network[root@node02 sql]# mysql -uroot -pDBa2020*mysql> use mall;mysql> select * from ads_sale_tm_category1_stat_mn;+-------+--------------+----------------+----------+----------------+----------------------+-----------------+-----------------------+---------+------------+| tm_id | category1_id | category1_name | buycount | buy_twice_last | buy_twice_last_ratio | buy_3times_last | buy_3times_last_ratio | stat_mn | stat_date  |+-------+--------------+----------------+----------+----------------+----------------------+-----------------+-----------------------+---------+------------+| NULL  | NULL         | NULL           | 158      | 141            | 0.89                 | 107             | 0.79                  | 2020-08 | 2020-08-29 || NULL  | NULL         | NULL           | 158      | 141            | 0.89                 | 107             | 0.79                  | 2020-08 | 2020-08-29 || NULL  | NULL         | NULL           | 284      | 256            | 0.9                  | 207             | 0.81                  | 2020-08 | 2020-08-30 |+-------+--------------+----------------+----------+----------------+----------------------+-----------------+-----------------------+---------+------------+3 rows in set (0.00 sec)mysql> exit;

12. Azkaban自动化调度

Azkaban自动化调度, 生成数据

# Azkaban自动化调度# 生成数据[root@node02 sql]# mysql -uroot -pDBa2020*mysql> use mall;mysql> CALL init_data('2020-08-30',300,200,300,FALSE);Query OK, 0 rows affected (0.70 sec)

**准备mall_job.zip **

三个节点启动Azkaban

# 准备mall_job.zip# 三个节点启动Azkaban[root@node01 ~]# azkaban-executor-start.sh[root@node02 ~]# azkaban-executor-start.sh[root@node03 ~]# azkaban-executor-start.sh[AzkabanExecutorServer] [Azkaban] Azkaban Executor Server started on port 12321# azkaban出问题时,可以重启, 关闭命令如下# 重启命令 azkaban-executor-shutdown.sh

**启动Azkaban的web网页, 然后打开 https://192.168.192.178:8443/ **

#node03 启动Azkaban的web网页[root@node03 shell]# cd /opt/app/azkaban/server/[root@node03 server]# azkaban-web-start.sh

注意:

# https://192.168.192.178:8443/         # node03 注意这里是https# Azkaban:# 账号:admin# 密码:admin# 创建project mall# 设置参数 dt 2020-08-30# 设置参数 useExecutor node03
# 等自动化调度任务执行完后# 到node02查看执行情况,新建一个node02连接终端[root@node02 ~]# mysql -uroot -pDBa2020*mysql> use mall;mysql> select * from ads_sale_tm_category1_stat_mn;

13. 结果展示图片[18] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL图片[19] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL14. 课后作业

图片[20] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

15. 更换IP后所需要做的操作

# http://192.168.192.176:50070/        # node01# https://192.168.192.178:8443/        # node03 注意这里是https# Azkaban:# 账号:admin# 密码:admin# 更改虚拟机静态IP地址# 更改host_ip.txtcd /home/hadoop/automaticDeploy/vim host_ip.txtsystemctl restart networksource /etc/profile

16. 如何设置静态IP地址

  • 右键左下角windows
  • 点击网络连接 –> 网络和共享中心

图片[21] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL图片[22] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

  • 接下来按照自己电脑的ip改,我这里这是参考,具体得看每个人自己得电脑

图片[23] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL

查看自己电脑的ip信息

win+r打开运行cmd,然后输入ipconfig查看

图片[24] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL图片[25] - 超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本 - MaxSSL17. 常见问题(未完持续更新中,欢迎补充!)

欢迎大家在搭建数据仓库的遇到的问题在评论区下方提出,也可以补充在下面

相应问题及解决方法:

/bin/bash^M: 坏的解释器: 没有那个文件或目录 : https://blog.csdn.net/qq_56870570/article/details/120182874

拒接连接:重启网络 systemctl restart network

VMware 运行 systemctl restart network失败:软件问题,请使用virtual box

作者:Oraer

都看到最后了,不点个赞+收藏吗?

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享