一、基本概念

数据仓库（Data Warehouse）是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据，借助数据仓库的分析能力，为企业指定决策，帮助企业改进业务流程、提高产品数量

一般数仓分为离线数仓（spark）和实时数仓（flink）

二、核心框架

数据采集

数据通过DataX或者sqoop可以将业务数据等导入到数据仓库，通过Flume可以将用户行为数据等导入到数据仓库；

数据分析

数据通过处理获取有用的数据指标

数据可视化

将处理好的数据指标用在各种模块中

流程图

数据采集

业务数据通过Nginx采集到业务服务器（Springboot）然后再写到mysql中，用户行为数据通过Nginx采集到日志服务器（Springboot）写入到日志文件中（注：主要由JavaWeb人员负责）
日志文件的用户行为数据通过Flume将数据先写入kafka（主要作用为消峰），再通过Flume将kafka的数据写入到hdfs
Mysql的业务行为数据通过DataX（全量的同步）将数据写入到hdfs中，也可以使用Maxwell（增量同步）将数据写入到hdfs中

离线数仓

将HDFS中的数据进行建模进行各种数据分层处理如： ODS层、DIM层、DWD层、DWS层、ADS层等，（基本上都是Sql语句），所以需要DolphinScheduler进行任务调度管理
处理之后数据，通过DataX（每日同步）结果数据写入到MySQL中
然后再通过Superset的可视化工具进行数据的展示

实时数仓

Flink读取kakfa中的数据，而kafka中主题数据即为ODS层
Flink从kafka中读取的数据进行清洗即为DWD层，再次写回到kafka中
Flink读取kafka中DWD层的数据，进行维数数据的处理，通过Hbase存储处理的数据，由于Flume和kafka会造成数据的重复，那么Flink在消费kafka数据的时候可以进行精准一次去重。如果数据量比较小可以不用Flink，而使用Redis旁路缓存去重，即为DIM层
维度的数据可以通过Redis或者Hbase进行查询
Flink将上面数据写入到ClickHouse进行预聚合，即为DWS层
最后对ClickHouse数据进行查询，然后通过Springboot（JavaWeb）数据接口服务将查询数据写入到Sugar，进行实时数据的可视化

文章版权归作者所有，未经允许请勿转载。

THE END