关注DataFunTalk有2年多了,DataFun确实像创始人王大川讲的那样,践行选择、努力和利他原则,专注于大数据、人工智能技术应用的分享与交流,秉承着开源开放的精神,免费的共享了很多有营养的行业实践专业知识,对于这样有情怀的团队真心希望他们越办越好。2022年底DataFun发布《DataFun数据智能知识地图》,一看就做得很用心,内容涵盖数据采集与治理、数据架构、数据能力、数据应用等四大领域、15大数据模块,拆解了数据流转全流程。其中,就包含数据仓库、大数据平台、数据中台的定义,但是我确实不太认同这样的定义,引用原文如下:
数据中台 = 大数据平台 + 数据仓库 + 数据应用和服务
- 大数据平台:位于最底层,支持海量数据存储,并支持实时流数据计算、离线批量计算、数据挖掘、交互式查询等场景的一套基础平台设施
- 数据仓库:是基于大数据平台的存储引擎、存储格式(Hive、Delta Lake等),基于维度建模方法建设的结构化数据集合,目的是为所有类型的数据支持提供数据环境
- 数据中台:是基于大数据平台提供的底层平台能力、以及数仓提供的结构化数据环境,搭建的面向业务的统一的数据应用服务
真的定义对了吗
乍一看就感觉不太对,怎么成了“洋葱模型”,大数据平台成了最里层。难道我们几年前称呼的大数据平台就没有了数据应用服务,也没有了面向主题的数据集合。我们还是找几篇以前的论文看看,看看那个时代我们对这些名词是怎样的认知。
下图是1995年发表在今日电子期刊的文章《“数据仓库”讲座》,从操作型系统抽取数据构建数据仓库,从而支撑分析型数据库;再看看2011年《架构大数据 :挑战 、现状与展望》一个典型的数据仓库架构,包括数据源、数据存储与管理、OLAP服务、前端展示。从90年代不就是和我们现在数据中台朴素的架构认知一样吗。
我们再看看大数据平台,2013年系统仿真学报收稿《大数据平台技术综述》,文章给出了大数据平台体系架构,如果换成“数据中台架构”这个词,你也挑不出大毛病吧,讲真,那时候真的没有数据中台这个词,人家不是抄袭。
我们回归到数据中台,在2019年发表在期刊数据与计算发展前沿中的《数据中台技术相关进展及发展趋势》,给出了数据中台整体架构图,这也是我认为定义的比较全面比较好的数据中台架构,要是把这个词换成大数据平台架构图也无可厚非,谁叫你出道晚,难免抄人家。
因此,数据中台 = 大数据平台 + 数据仓库 + 数据应用和服务,是不对的,从上世纪90年代,我们对于数据仓库认知就是从数据抽取、汇聚、加工、整合、应用等等,每层都没少啊,千万不要掩耳盗铃,自以为是。
到底什么区别
我认为,从数据仓库到大数据平台再到数据中台不是包含和被包含的问题,而是由浅入深,有简入细的问题。这很好理解,90年代的数据仓库建设肯定也有数据治理范畴,这个工作我们潜移默化的在做,只不过没有提升到一个理论高度,没有形成一个专门的学科而已。随着技术的发展、数据量的增加、业务的需求、行业的重视,我们逐渐把工作做细,也就用新的名词来称呼。
数据仓库 VS 大数据平台
- 大数据平台存储计算能力更强:2005年前后Hadoop技术的出现,让数据存储能力更高,不但存储结构化、而且半结构化和非结构的数据来而不拒,同时计算能力更加强大。
- 大数据平台数据接入能力更强大:这源于强大的存储计算能力,以前数据仓库存储价值较高的数据,现在也可以存储低价值数据,如日志、传感器数据、埋点数据等等。
- 大数据平台更加强调开放和时效:数据来源多了,需要的人肯定也多了起来,相比与传统数仓,要把这些数据服务出去,各种SDK、API出来了,为了提供更加实时的数据,实时计算也出来了,Lambda、Kappa架构出来了。
- 大数据平台展示能力更丰富:移动互联网、前端技术的发展,让我们对数据的触达更多样,更多酷炫的数据展示。
大数据平台 VS 数据中台
- 数据中台更加强调数据治理,资产化思维:这源于把数据当做生产要素,把数据当做资产运营,没有标准、质量与安全,谈何数据增值,变现。
- 数据中台更加强调数据为业务赋能:我们要的更多,不单单BI,我们更要让数据为业务赋能,让数据参与到业务场景中,发挥数据价值,也催生出新的职业DataBP。
- 数据中台更加强调智能:这源于机器数据、人工智能的发展。结合业务、依托数据,我们构建算法模型,把算法能力封装成API服务出去,这不就是ChatGPT吗。
- 数据中台更加强调经济易用:以前大数据平台成本太高了,构建集群、搭建各种组件,还要运维,现在基于云计算,各种现成的工具开箱即用,比如现在火得数仓一体数据库组件。
未来应该还会出现新的名词,这一新名词肯定在老的名词中有迹可循,我们在肯定新名词背后工作的同时,看看前人走过的路,会有更清醒的认知。
参考文章
- 苏萌,贾喜顺,杜晓梦,高体伟.数据中台技术相关进展及发展趋势[J].数据与计算发展前沿,2019,1(05):116-126.
- 宫夏屹,李伯虎,柴旭东等.大数据平台技术综述[J].系统仿真学报,2014,26(03):489-496.DOI:10.16182/j.cnki.joss.2014.03.039.
- Doug Lowe,王澜,李朝虎.“数据仓库”讲座[J].今日电子,1995(11):73-76+89.
- 王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.