摘要
一种基于数据治理的大数据中台架构系统,包括:数据接入模块,用于接入企业需要进行治理的数据源,并将接入的需要进行治理的数据源发送给数据湖仓模块;数据湖仓模块,用于根据接入数据的字段结构,在数据湖和数据仓库中创建数据模型,存储采集到的数据;数据治理模块,用于按预设规则对接入到数据湖仓的数据进行统一治理,向数据访问模块和数据应用模块输出高质量的数据资产和主数据;数据访问模块,用于接收数据治理平台治理好的高质量资产和主数据,并提供多种方式供内外部客户使用;数据应用模块,用于基于高质量资产和主数据,开发出不同的应用服务。本发明公开的大数据中台架构系统,具有数据一致性强、质量高和安全性好的优点。
技术领域
本发明涉及的是大数据领域,特别涉及一种基于数据治理的大数据中台架构系统。
背景技术
随着大数据时代的到来,许多企业在数字化转型的过程中,面对大量的业务系统和不断产生的海量数据感到无能为力,由于缺乏对企业内数据使用的宏观管控,各部门得到的数据存在不好用、用不好、管理难等诸多问题,主要体现在:
1.数据不一致:例如某个基础数据在各个平台都会被用到,它们在每个平台的库里都存了一份,结果某个平台对数据更新而没有知会其他的平台导致各平台看到的结果有所出入;
2.数据不规范:例如某个常规的数据字段在很多系统里都会使用(例如订单类型),然而每个系统采用的是不同的数据字典,字段类型、长度、命名都不统一,最终在做汇总时使用起来极不方便,工作量大大增加;
3.数据不准确:很多系统由于BUG或者版本升级,导致数据库里出现了一些脏数据(比如销量出现负值),再比如某些重要字段(例如手机号)忘了填写,这些低质量的数据展示到线上会给使用者带来诸多问题;
4.数据不安全:即使是同一份数据,企业内不同部门往往只应该看到一部分数据,甚至不同级别的员工都应该看到不同的数据,否则可能导致信息泄露;还有些字段是敏感信息,应该通过加密或者脱敏的方式对外展示,否则若被不法分子利用,可能产生严重后果。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
一种基于数据治理的大数据中台架构系统,包括:数据接入模块、数据湖仓模块、数据治理模块、数据访问模块、数据应用模块;其中:
数据接入模块,用于接入企业需要进行治理的数据源,并将接入的需要进行治理的数据源发送给数据湖仓模块;
数据湖仓模块,用于根据接入数据的字段结构,在数据湖和数据仓库中创建数据模型,存储采集到的数据;
数据治理模块,用于按预设规则对接入到数据湖仓的数据进行统一治理,向数据访问模块和数据应用模块输出高质量的数据资产和主数据;
数据访问模块,用于接收数据治理平台治理好的的高质量资产和主数据,并提供多种方式供内外部客户使用;
数据应用模块,用于接收数据治理平台治理好的的高质量资产和主数据,并基于高质量资产和主数据,开发出不同的应用服务。
进一步地,数据接入模块中,接入的数据源按照接入方式的不同分为业务数据库、文件导入数据、人工录入数据、线上实时数据;在数据接入前,需要确认数据的采集方式和数据的字段结构。
进一步地,数据接入模块中,对于历史数据,直接一次性抽取到数据湖仓模块中;对于实时数据,采集到消息总线完成数据汇聚,再分类写入数据湖仓模块中。
进一步地,数据治理模块中,用于按预设规则对接入到数据湖仓的数据进行统一治理,具体方法包括:
进行元数据管理,自动接入数据湖仓的元数据信息并自动更新,获取各个数据表的所在位置、字段结构、含义;分析数据来源、血缘关系,看清数据之间的关联脉络;
进行数据标准管理,通过新建数据标准,指明特定字段的含义、长度、类型信息,当该标准被某个数据所引用,则成为数据质量检查时的依据;
进行数据质量管理,通过定义校验规则,指明表字段应当满足的数据约束,定期自动执行约束检查,生成质检报告,对于不符合校验规范的数据,会以邮件的形式告知平台使用人员,督促他们及时整改数据。
进一步地,数据治理模块中,用于按预设规则对接入到数据湖仓的数据进行统一治理,具体方法包括:
进行数据资产管理,对于通过质量检查的、业务上又具备高价值的数据,编制为数据资产,做好的数据资产将发布为API数据接口,供企业内部或外部用户查询使用;
进行主数据管理,对于企业内各部门共享通用的基础数据,需要定义为主数据,通过质量检查的主数据会被平台交换到其它的业务系统中,供各个业务系统使用;
进行任务调度管理,对元数据信息同步、数据质量检查、ETL作业、离线计算作业的定时执行进行统一管控,调整执行频次,查看执行结果;
进行数据安全管理,根据系统不同的用户配置不同的数据权限,使同一张表让不同的人看到不同的范围,对于敏感字段,配置加密方式和脱敏方式,让敏感数据在访问时不泄露。
进一步地,数据访问模块中,提供了数据API接口、数据消息和授权数据接口表三种方式供内外部客户使用。
进一步地,API接口,通过把要发布的高质量数据做成REST接口供第三方调用;数据消息,通过把做好的数据推送到消息总线供外部消费;授权数据接口表,通过把做好的数据存放到数据表中,提供外部连接进行访问。
进一步地,数据应用模块中,基于高质量资产和主数据,开发出不同的应用服务,应用服务至少包括:数字图书馆、数据商城、业务中台、主数据平台和BI分析平台。
进一步地,数字图书馆,用于把经过数据治理的数据分门别类,在数据图书馆进行展示、全文检索和统计分析,让用户能够阅览系统做好的全部数据成果;
数据商城,用于将高价值的数据资产,打包成商品在数据商城中出售,购买的用户查看数据资产的内容;
业务中台,用于将企业内各个接入数据中台的业务系统进行接入。
进一步地,主数据平台,在基础数据经过数据治理后,得到的主数据需要分发到其它业务系统中支撑业务运转,当主数据发生变更时,通知所有相关业务系统进行数据更新。
BI分析平台,对于大数据分析、商务智能类应用,在平台的离线、实时数据仓库上做计算分析来完成。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明公开了一种基于数据治理的大数据中台架构系统,包括:
数据接入模块、数据湖仓模块、数据治理模块、数据访问模块、数据应用模块,其中:
数据接入模块,用于接入企业需要进行治理的数据源,并将接入的需要进行治理的数据源发送给数据湖仓模块;
数据湖仓模块,用于根据接入数据的字段结构,在数据湖和数据仓库中创建数据模型,存储采集到的数据;
数据治理模块,用于按预设规则对接入到数据湖仓的数据进行统一治理,向数据访问模块和数据应用模块输出高质量的数据资产和主数据;
数据访问模块,用于接收数据治理平台治理好的的高质量资产和主数据,并提供多种方式供内外部客户使用;
数据应用模块,用于接收数据治理平台治理好的的高质量资产和主数据,并基于高质量资产和主数据,开发出不同的应用服务。
本发明提供的大数据中台架构系统具有以下优点:
1.数据一致性强。经过数据治理后得到的高质量数据会通过接口、消息和数据表的方式提供给其它系统使用,从而确保各系统得到的数据是一致的,避免各部门得到的数据参差不齐。
2.数据质量高。数据治理定期进行数据校验和数据整改来保证数据的质量,从而大大减少了不规范、不完整、不正确数据的出现。
3.数据安全性好。通过全局的权限管理给不同的用户授予不同的数据权限,还提供数据加密、脱敏的功能,从而有效地保障数据的安全性。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例1中,一种基于数据治理的大数据中台架构系统的结构图;
图2为本发明实施例1中,数据治理模块各环节的处理步骤流程图;
图3为本发明实施例2中,车企数字化转型的中台系统建设的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中存在的问题,本发明实施例提供一种基于数据治理的大数据中台架构系统。
实施例1
本实施公开了一种基于数据治理的大数据中台架构系统,如图1,包括:
数据接入模块、数据湖仓模块、数据治理模块、数据访问模块、数据应用模块;其中:
数据接入模块,用于接入企业需要进行治理的数据源,并将接入的需要进行治理的数据源发送给数据湖仓模块;
在本实施例数据接入模块中,接入的数据源按照接入方式的不同分为业务数据库、文件导入数据、人工录入数据、线上实时数据;在数据接入前,需要确认数据的采集方式和数据的字段结构。具体的,确定企业需要进行治理的数据源,这些数据源按照接入方式的不同可以分为业务数据库、文件导入数据、人工录入数据、线上实时数据。接入前,需要确认好数据的采集方式和数据的字段结构,以便存储在数据湖和数据仓库中。对于历史数据,直接一次性抽取到数据湖或数据仓库;对于实时数据,采集到消息总线完成数据汇聚,再分类写入数据湖和数据仓库中。
数据治理模块,用于按预设规则对接入到数据湖仓的数据进行统一治理,向数据访问模块和数据应用模块输出高质量的数据资产和主数据;具体的,对接入到数据湖仓的数据进行统一治理,它包含一系列治理环节,最终输出高质量的数据资产和主数据。整个数据治理的各个环节如图2所示,具体包括:
进行元数据管理,自动接入数据湖仓的元数据信息并自动更新,获取各个数据表的所在位置、字段结构、含义;分析数据来源、血缘关系,看清数据之间的关联脉络;
进行数据标准管理,通过新建数据标准,指明特定字段的含义、长度、类型信息,当该标准被某个数据所引用,则成为数据质量检查时的依据;
进行数据质量管理,通过定义校验规则,指明表字段应当满足的数据约束,定期自动执行约束检查,生成质检报告,对于不符合校验规范的数据,会以邮件的形式告知平台使用人员,督促他们及时整改数据。
进行数据资产管理,对于通过质量检查的、业务上又具备高价值的数据,编制为数据资产,做好的数据资产将发布为API数据接口,供企业内部或外部用户查询使用;
进行主数据管理,对于企业内各部门共享通用的基础数据,需要定义为主数据,通过质量检查的主数据会被平台交换到其它的业务系统中,供各个业务系统使用;
进行任务调度管理,对元数据信息同步、数据质量检查、ETL作业、离线计算作业的定时执行进行统一管控,调整执行频次,查看执行结果;
进行数据安全管理,根据系统不同的用户配置不同的数据权限,使同一张表让不同的人看到不同的范围,对于敏感字段,配置加密方式和脱敏方式,让敏感数据在访问时不泄露。
数据访问模块,用于接收数据治理平台治理好的的高质量资产和主数据,并提供多种方式供内外部客户使用;
具体的,对于数据治理平台做好的高质量数据,数据访问层提供了三种方式供内外部客户使用:
数据API接口:把要发布的高质量数据做成REST接口供第三方调用;
数据消息:把做好的数据推送到消息总线供外部消费;
授权数据接口表:把做好的数据存放到数据表中,提供外部连接进行访问。
数据应用模块,用于接收数据治理平台治理好的的高质量资产和主数据,并基于高质量资产和主数据,开发出不同的应用服务。
在本实施例中,数据应用模块是供用户使用的各大应用平台,主要有:
数字图书馆:把经过数据治理的数据分门别类,在数据图书馆进行展示、全文检索和统计分析,让用户能够阅览系统做好的全部数据成果。
数据商城:对于高价值的数据资产,可以打包成商品在数据商城中出售,购买的用户可以查看数据资产的内容。
业务中台:由企业内各个接入数据中台的业务系统组成。
主数据平台:基础数据经过数据治理后,得到的主数据需要分发到其它业务系统中支撑业务运转,当主数据发生变更时,需要知会所有相关业务系统进行数据更新。
BI分析:对于大数据分析、商务智能类应用,也可在平台的离线、实时数据仓库上做计算分析来完成。
本发明公开了一种基于数据治理的大数据中台架构系统,包括:
数据接入模块、数据湖仓模块、数据治理模块、数据访问模块、数据应用模块;其中:
数据接入模块,用于接入企业需要进行治理的数据源,并将接入的需要进行治理的数据源发送给数据湖仓模块;
数据湖仓模块,用于根据接入数据的字段结构,在数据湖和数据仓库中创建数据模型,存储采集到的数据;
数据治理模块,用于按预设规则对接入到数据湖仓的数据进行统一治理,向数据访问模块和数据应用模块输出高质量的数据资产和主数据;
数据访问模块,用于接收数据治理平台治理好的的高质量资产和主数据,并提供多种方式供内外部客户使用;
数据应用模块,用于接收数据治理平台治理好的的高质量资产和主数据,并基于高质量资产和主数据,开发出不同的应用服务。
本发明提供的大数据中台架构系统具有以下优点:
1.数据一致性强。经过数据治理后得到的高质量数据会通过接口、消息和数据表的方式提供给其它系统使用,从而确保各系统得到的数据是一致的,避免各部门得到的数据参差不齐。
2.数据质量高。数据治理定期进行数据校验和数据整改来保证数据的质量,从而大大减少了不规范、不完整、不正确数据的出现。
3.数据安全性好。通过全局的权限管理给不同的用户授予不同的数据权限,还提供数据加密、脱敏的功能,从而有效地保障数据的安全性。
实施例2
为了更好的理解实施例1中的一种基于数据治理的大数据中台架构系统,本实施例以某车企数字化转型的中台系统建设为例进行说明。具体技术选型和架构方案如图3所示,其步骤包括:
首先将四个业务中台(营销中心、调度中心、实验中心、结算中心)保存的业务数据使用ETL工具定时抽取到大数据平台HDFS,对于实时产生的订单数据、实验数据则采集到Kafka完成数据汇聚。汇聚到Kafka的数据一面完成实时计算,将结果写入Redis,一面将需要检索的数据写入Elasticsearch以便实现数据搜索和BI分析。
进一步地,对存储在HDFS中的数据,使用Hive建立数据湖和数据仓库的表模型。
进一步地,将Hive中的元数据接入Atlas,进行元数据管理,可以在Atlas中看到Hive表的结构、信息和血缘关系,还可以打数据标签进行数据分类。
进一步地,在数据标准管理系统制定数据标准,设置好各个业务字段的类型、长度、名称等约束。
进一步地,在数据质量管理系统定义校验规则,例如字段的非空约束、数值范围约束、重复数据检查等,平台将根据设置定期对数据进行校验,生成数据报告。对不符合标准和校验规则的数据通过邮件督促平台相关人员进行数据整改。对于整改后的高质量数据,再重新接入数据仓库Hive,以便后续分发使用。
进一步地,在数据资产管理系统创建数据资产,通常需要把价值高的数据定义为数据资产,并发布数据服务,供上层应用系统或第三方使用。在使用Hive查询发布数据接口时,使用Trino分布式SQL引擎做查询加速,提高接口响应速度。
进一步地,在主数据管理平台定义主数据,取的通常是各个业务系统赖以运转的基础数据,符合标准和校验约束的主数据可以使用数据接口、消息总线、数据表的方式提供给其它系统使用。
进一步地,在任务调度平台Dolphinscheduler中对整个系统的离线分析作业、质量校验作业、ETL作业等进行统一管理和监控,确保各项任务按时正常执行。
进一步地,在数据安全管理系统Apache Ranger中完成数据权限的控制和审计,安全管理系统还集成了多种方式进行数据脱敏和加密,保障敏感数据不被泄露。
经过上述数据治理平台的全流程协作来保障全系统数据的质量,为其它各个业务系统和第三方客户提供强大的数据支撑。做好的高质量数据通常以API接口、消息总线、数据表的形式对外提供服务。
在应用层,基于高质量的数据结果,可开发出不同的应用服务,包括:
数字图书馆:展示数据中台做好的所有数据,这些优质数据被接入到搜索引擎Elasticsearch进行数据搜索和数据分析,还可做业务关联查询,为客户全方位了解系统现有数据提供一站式解决方案。
BI分析:对于大屏展示需求,可基于做好的高质量数据完成报表统计分析,展示数据结果。
主数据管理:用于展示经过数据治理的所有主数据,包含主数据定义,主数据发布,主数据交换等功能。
业务中台:包含企业内基于微服务架构搭建的其它业务系统,这些业务系统可对接数据中台提供的主数据和数据资产,参与业务逻辑的处理。
本实施例以车企数字化转型的中台系统建设为例对实施例1进行说明,体现了实施例1中公开的大数据中台架构系统,具有数据一致性强、质量高和安全性好优点。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。