文章目录

    • 一、业务背景
    • 二、数据架构
    • 三、现状 &目标
    • 四、数据湖是解法?
      • 1.数据湖 vs 数据仓库
      • 2.数据湖的优势
    • 五、落地实践
    • 六、数据集成
    • 七、数仓建设
    • 八、特征工程
    • 九、未来规划

一、业务背景

网易严选在 2017 年中开始搭建自己的大数据体系,如今该体系已经支撑了严选的商业分析、搜索、推荐、广告、供应链、风控、商品开发、品控等几乎所有的业务场景。数据是电商运转的生命线,随着业务发展对数据的依赖程度越来越高,我们发现原来的数仓建设方法论及相关技术存在着一些比较明显的问题:

  • 1.数据的运转效率比较低。几乎所有的数据应用都重度依赖数仓模型,数仓模型本身的研发与迭代成本比较高,生产速度赶不上需求速度,这就导致我们的创新想法落地、业务策略迭代等都会被按下暂停键。数据的运转效率拖慢了业务的迭代效率。所以提升数据运转效率是我们数据体系演进的重要命题。
  • 2.业务的快速迭代导致了我们基础数据 schema 的频繁变更,而每次数据 schema 变更,都是一次伤筋动骨。我们的数据平台需要提供更加