一、数据仓库

1.数据仓库的概念

1)数据仓库的特点:

  • 面向主题的:对数据进行整合、分析和归类的抽象
  • 集成的:将不同数据源的数据(业务数据、外部系统数据、埋点日志)经过统一编码、规范命名、字段类型转换等操作,整合到仓库
  • 相对稳定的:根据业务场景实时更新、一般会被长期保留,不进行修改删除的操作
  • 反映历史变化的数据集合:通过变更时间等记录变更日期

2)数据仓库整个数据流向

  • 数据获取
  • 数据存储
  • 数据访问

3)ETL

  • 数据抽取
  • 数据清洗和转换
  • 数据加载

2.离线数据仓库和实时数据

该架构需要维护两套代码:离线架构代码和实时架构代码

3.数据仓库的建模流程和方法

1)流程

  • 概念模型设计:对不同数据源及数据内容和数据组织分布情况分析,确定范围、主题域
  • 逻辑模型设计:主题域分析(注意涉及的实体定义)、数据粒度划分(数据细化和综合程度的级别)、数据分割(时间线、地理位置、组织结构划分&