一、数据仓库
1.数据仓库的概念
1)数据仓库的特点:
- 面向主题的:对数据进行整合、分析和归类的抽象
- 集成的:将不同数据源的数据(业务数据、外部系统数据、埋点日志)经过统一编码、规范命名、字段类型转换等操作,整合到仓库
- 相对稳定的:根据业务场景实时更新、一般会被长期保留,不进行修改删除的操作
- 反映历史变化的数据集合:通过变更时间等记录变更日期
2)数据仓库整个数据流向
- 数据获取
- 数据存储
- 数据访问
3)ETL
- 数据抽取
- 数据清洗和转换
- 数据加载
2.离线数据仓库和实时数据
该架构需要维护两套代码:离线架构代码和实时架构代码
3.数据仓库的建模流程和方法
1)流程
- 概念模型设计:对不同数据源及数据内容和数据组织分布情况分析,确定范围、主题域
- 逻辑模型设计:主题域分析(注意涉及的实体定义)、数据粒度划分(数据细化和综合程度的级别)、数据分割(时间线、地理位置、组织结构划分&