DAP数据分析平台作为公司核心产品,其价值在于能将企业业务数据进行抽取汇聚,建立企业数据仓库,能够真实、准确、清晰、有效地将企业内部及外部行业数据进行可视化展现,帮助企业提升行业洞察力。

作为一个以产品、方案为主要核心的公司,公司员工本身对于产品一定是不陌生的,但是想要做好产品演示单单了解产品是不够的,还需要自身对演示过程反复地练习,演示中要能够突出产品的亮点,要能够调动客户的兴趣,在演示产品的同时还需要对行业内其它相同的产品有所了解,在演示过程中突出自身产品亮点,扬长避短。

1整体说明

本章主要对数据中台中典型的数据治理分析方案进行介绍,包括对数据治理分析方案进行整体介绍,接下来对MDM+ESB+DAP三款产品的集成架构以及配合方式进行说明,最后对数据中台数据治理分析方案的演示步骤进行整体介绍。

1.1产品方案

DAP数据分析平台可以结合MDM主数据管理平台、ESB企业数据总线形成数据中台/数据治理分析方案,该方案主要通过系统数据挖掘数据的价值,主数据平台进行基础数据的治理保证维度的统一,而DAP数据分析平台则分析各个业务系统的数据,按照主题指标进行分析,ESB则负责数据的数据集成以及应用集成。

各个产品的主要功能如下:

1.DAP数据分析平台:结合ESB从各系统进行数据抽取、加工、转换,并汇聚存储到数仓中,基于数仓通过图形化、拖拽式配置构建分析主题,实现快速、精准分析,支持领导层的决策。

2.MDM主数据管理平台:对企业中的主数据进行集中管理,统一进行清洗、校验和丰富,建立统一、标准、完整的主数据体系,并为其他系统提供标准的主数据,同时为DAP提供基础数据支持;

3.ESB企业服务总线:从各个系统抽取主数据并同步至MDM平台,支持主数据校验、清洗和汇聚,并配合MDM平台进行主数据分发; 配合DAP平台建立业务数据同步流程,支持数据仓库的建设。

1.2数仓架构

DAP数据分析平台整体分为两个部分,数据仓库及数据BI,数据仓库的构建往往是基于平台的,数据平台或者基础架构搭上,已经融合到整个基础设施的搭建上,数仓整体架构如下:

数据仓库层是我们在做数据仓库时要核心设计的一层,从ODS贴源层中获得的数据按照主题建立各种数据模型。DW层又细分为DWD层、和DWS层两种层面。

数据明细层:DWD(Data Warehouse Detail)层一般保持和ODS层一样的数据粒度,主要提供一定的数据质量保证。主要是对ODS内的数据按照主题进行划分,并且对数据进行数据的清洗,同时,为了提高数据明细层的易用性,该层会进行维度的提炼,将维度整合至维度表中,使DWD层的数据均采用黄金编码。

数据汇总层:会在DWD层的数据基础上,对数据做一些聚合操作,形成DWS聚合。生成一系列的中间表,提升公共指标的复用性,减少重复加工。同时也会做一部分的数据聚合,将相同主题的数据汇集到一张表中,提高数据的可用性。简单来讲,就是对基础表的基础指标进行计算,按照通用的核心维度进行聚合操作,算出相应的统计指标,一般来说聚合分为两类,一类是横向的聚合,另一类为纵向的聚合,对基础事实表的指标进行汇总。

1.3演示重点

数据分析平台整体演示方案演示重点内容如下:

1.BIZ至ODS同步:源库读取、流程同步、接口同步三种数据同步方式场景预制;

2.数据模型:维表、基础事实表、汇总事实表及模型配置;

3.调度任务配置:调度任务定时、手动、事件三种调度方式配置;

4.分析模型配置:数据集、立方体、多维分析报表及综合业务报表配置;

5.基于数据集、立方体及指标配置组件;

6.配置数据查询服务、接收服务、统计服务;

7.统计分析:数据地图、质量分析、影响分析、血缘分析功能介绍;

8.配置数据大屏、分析主题,并配置组件之间的联动、穿透,穿透包含三种穿透方式。

2效果先行

DAP数据分析平台展示页面分为PC端、移动端以及大屏展示端,通常来说首先需要PC端通常按照主题域划分,展示集团各主题及具体详细信息,而移动端则与企业微信、钉钉等结合进行移动端展示,大屏是将PC端核心业务指标进行抽取进行核心业务指标展示。

2.1主题展示

重点内容:各主题域划分、组件穿透、联动、报表导出功能

在数据分析时通常建议按照主题域划分,例如销售主题、财务主题、人事主题等,而主题是跨业务系统的,每个主题又是基于数据模型通过组件,例如条形图、柱状图、散点图、雷达图等进行可视化展示,各主题可以进行条件穿透,任意组件可以通过点击跳转到二级看板或者三级报表,在穿透后会自动携带条件进行数据过滤展示,在穿透表格页面或者报表页面可以基于数据进行二次图表构建。

2.2移动展示

重点展示:移动端效果展示及与企业微信、钉钉等集成

移动端展示通PC端展示一样,主要展示各主题组件,展示对应人事主题、财务主题、销售主题等数据信息,同样各主题也可以进行条件穿透,穿透至对应二级详情页面及报表页面,同时说明移动端可以与企业微信及阿里钉钉等软件相结合展示。

2.3大屏展示

重点内容:各主题核心业务指标筛选,并以大屏方式(炫酷)展示

DAP数据分析平台还对企业运营情况配置各个大屏,例如经营大屏、项目大屏以及集团大屏、财务大屏等等,为企业提供运营决策,展示产品效率排行、营销能力排行、应收金额等等,在大屏演示时需要与用户说明大屏不可进行条件穿透,是将企业核心业务指标进行抽取,并结合大屏主题装饰进行可视化展示。

3基础配置

在DAP数据分析平台进行分析使需要将外部系统数据库在数据分析平台进行注册,并跟据实际需求对主题进行划分,同时在数据调度的过程中需要基于ESB生成对应的调度资源,现将基础配置进行说明如下。

3.1业务系统定义

业务系统注册主要是对需要DAP数据分析平台自身数仓、ODS以及各个数据来源的业务系统进行数据库注册,便于分析平台进行数据处理的操作,可以在业务系统注册模块进行数据库信息注册。

在各业务系统内进行数据源的注册即可。

3.2数据源头注册

重点内容:数据源头注册以及多种类型数据库存储

注册完成业务系统过后,DAP的数据采集分为两种形式,可以通过接口获取数据,同时也可以跟据直接读取业务系统数据库获取数据,数据源头需要在DAP数据分析平台进行数据源头配置,只要是支持JDBC的数据库均可在DAP进行数据源头的注册,同时DAP系统内的数仓以及ODS也是在此处注册,通常是使用PostgreSQL。

3.3ODS数据定义

重点内容:ODS数据为贴源层,说明ODS层为对数据表进行挑选及ODS集成流程自动生成

ODS层是最接近数据源中数据的一层,数据源中的数据,经过抽取、清洗、传输(ETL/ESB)装入ODS库。ODS的数据,总体上大多是按照源头业务系统的分类方式而分类的。

一般来讲,为了考虑后续可能需要对数据追根溯源,因此对于这一层不建议做过多的数据清洗工作,原封不动地接入原始数据即可,并且为数据拉取或定义时间戳,方便ODS-DW的数据增量同步。至于数据的清洗、去重、异常值处理等过程可以放在后面的DW层来做,从业务系统抽取到数据到ODS层通常是来筛选需要分析的数据表。

4数据模型

数据分析平台分为两大类,一类是数据模型,另一类为分析模型,数据模型主要包含维表的配置、事实表的配置及模型的配置,并对指标进行集中管控,具体操作步骤如下。

4.1主题划域

在进行数据分析前我们需要对分析的主题进行划分,通常来说企业常见的主题包括人事主题、财务主题、销售主题、生产主题、采购主题、成本主题以及各个行业领域的专属主题等等,在DAP数据分析平台划分的业务主题通常是跨业务系统。

4.2维度配置

维度表:说明维度表与主数据的关联关系,并生成对应维度表数据集成流程。

维度表属于数仓的设计范畴,维度表大体上分为两类,分为自然维度以及定义维度,自然维度是自然存在得枚举时间维度、地域维度、学历维度等是本身就存在的,例如在事实表中存在一个时间,现在我们要根据这个时间字段去汇总指标,这时一般有两种处理方式,第一是通过SQL的函数进行处理,第二是该时间关联时间维度表进行汇总。

以财务科目为例,定义维表是根据业务系统进行划分的,每个公司都离不开财务方面,而钱一定是和财务挂钩的,在财务出纳时一定会关联财务科目,而企业总部和每个分公司的财务科目又不一致就导致了数据混乱的现象,所以我们根据业务需求定义了财务科目这个维度表,使其公有一个黄金编码,维度表一般是有主键的。代表该类物质的一个单一个体,其他的字段一般都是有层次关系的,指标通常都是根据维度进行汇总计算,这样就能够统一数仓数据的口径。

接下来是维度定义的实际操作,维表一般是可以作为维度(筛选方式)的表。这里创建维表的方式有两种,一种是手动新增一个维表,配置字段信息之后,点击初始化进行维表的创建;另一种是通过导入按钮,选择数据库和目标库之后,点击执行完成维表的创建。

接下来配置维表的实际字段信息。

配置维表数据来源的SQL,可以从ODS中撰写SQL定义,也可以通过业务系统定义。

接下里配置每个字段之间的映射,在生成对应的ESB数据加工流程时会按照配置的映射关系处理字段映射。

最后直接在数仓创建表即可。

4.3事实配置

重点内容:主要说明基础事实表与汇总事实表的关联关系,说明基础事实表为数据清洗转换,汇总事实表为数据加工汇总,并增加对应的校验规则及汇总规则,并生成对应集成流程。

事实表其实质就是通过各种维度和一些度量值指标的组合构建的,比如通过时间维度、地域维度、组织维度,而指标值是某人某时某地的一些实际发生的值。比如2020年3月15日客户李枚支付定金5000元,这个金额就是指标,事实表的每一条数据都是几条维度表的数据和指标值交汇而得到的。

在实际的项目实施过程中,事实表都是根据主题来构建的,而主题是跨业务系统的,在实际数据展现时根据主题来确定展示的模型,在通过模型来确定维表和基础的事实表。

事实表又分为两类,一是基础事实表(DWD),另一种是汇总的事实表(DWS)。

基础事实表:对业务系统基础数据的外键进行处理,关联我们的基础数据,并对ODS的字段进行处理,并选取度量,主要是按照业务系统来构建。

汇总事实表:汇总事实表是基于相同维度的基础事实表进行度量的合并,合并分为两种一种是汇总,汇总的过程中以时间维表进行关联,将基础事实表的时间进行汇总,对度量进行汇总求和或者求平均值,这种是纵向合并法;另一种是横向合并发,将基础事实表的字段进行合并,例如根据基础事实表的项目主键ID进行字段合并。这就是汇总事实表的两种汇总方式。

接下来是事实表创建的实际步骤,和维度表创建是类似的,首先点击新增按钮录入事实表的基础信息。

接下来配置字段的详细信息以及映射关系,注意要先处理SQL部分,事实表的加工汇总不在于平台的操作,而是SQL的撰写。

配置对应的SQL,ESB数据加工流程会跟据SQL来处理ODS中的数据。

最后配置SQL与字段的映射即可。

4.4模型配置

重点内容:模型配置主要为配置各汇总事实表关联关系,并基于元数据生成对应调度任务

数据模型的配置核心是对上边配置的维度表、事实表等进行关联(要非常熟悉每个表之间的关联关系),并配对应的关联关系,点击新增按照录入数据模型的基本信息并选择数据表。

选好对应的维表以及ODS表后,配置关联关系;

详情配置页面选择每个字段之间的关联关系,最后通过预览功能查看效果。

4.5指标管理

重点内容:指标的来源配置及指标对应阈值及通知预警等配置

指标就是数仓汇总事实表的一个元数据字段,而原生指标是业内比较通用的,例如营收完成率、回款完成率等,所以说原生指标是通用的基础指标。

基于原生指标还会产生对应的衍生指标,衍生指标和基础事实表和汇总事实表的建设是类似的,是在原生指标的基础上对指标进行加工汇聚,这就是衍生指标(自己定义),例如我们汇总事实表的是原生指标,这时我们跟据客户提出需求在对指标进行加工,在我们的立方体内可以自定义指标加工公式,也可跟据时间维度进行函数的计算,并进行WHERE筛选。

指标的实际配置过程如下是在事实表定义时选择是否指标,选择指标的基本、指标的类型,在选择之后在指标关联模块显示对应的指标;

具体包括指标的来源、指标具体在哪个导航应用等信息。

5数据调度

数据调度主要为基于元数据配置生成对应业务系统—ODS、ODS—基础事实表、基础事实表—汇总事实表对应集成流程,每一个流程都为对应调度资源,该模块主要对调度资源、调度任务、调度日志进行介绍。

5.1调度资源

重点内容:调度资源的生成方式及调度资源的执行策略配置

调度资源核心功能是为数据模型提供数据且保障数据的实时性,调度资源实际上是对ESB流程进行引用,在DAP数据分析平台的调度可以自动生成,同样也可以在DAP调用外部ESB的数据加工流程。

在ESB集成流程分为三类,业务系统-ODS、ODS-DIM以及ODS-DW三种调度资源创建模式,可以使用ESB进行流程创建。

生成对应流程如下:

接下来改流程通过DAP的配置可以在调度资源模块进行流程执行调用。

5.2调度任务

重点内容:调度任务的自动生成方式及手动生成方式,并介绍任务执行策略等

调度任务有两种生成方式分别为自动生成以及手动生成,具体生成方式方式如下:

自动生成:在数据模型内通过点击生成任务按钮自动生成任务,通过DAP元数据、关联关系找到对应的执行流程,并将流程按照数据加工执行顺序进行插入到对应的关联表当中,并在调度任务列表内生成对应的调度任务。

手动新增:新开发调度任务模块,通过调度任务模块手动新增任务,并选择对应的调度资源来完成调度任务新增工作,并支持多种调度任务出发具体包含手动触发、时间触发以及定时触发。

可以在任务管理模块生成对应的调度任务,按照数据加工的顺序给串联起来即可。

5.3调度日志

调度日志可以显示调度任务的执行情况,显示成功失败、调度任务的执行时间、策略等详细信息。

6分析模型

数据分析平台分为两大类,一类是数据模型,另一类为分析模型,分析模型主要包括数据集以及立方体,数据集是基于上述配置数据模型构建的数据集合,在数据集合的基础上还可以进行数据的多维度分析,同时数据集以及立方体可以生成对应的数据服务,可以为供第三方系统提供数据汇总服务,现对配置过程描述如下。

6.1数据集配置

重点内容:数据集具体如何配置,字段如何选取等,同时支持数据集条件等配置,同时生成对应查询服务

数据集是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。在数据分析平台数据集是分析模型一部分,可以选择数据模型,基于数据模型找到对应维度表和事实表。

在保存过后会自动生成对应的关联关系。

直接选择需要分析的指标即可。

最后可以通过数据预览查看最终的效果。

6.2立方体配置

重点内容:对数据集进行再次汇总,定义对应维度及度量,同时生成对应统计服务

数据立方体允许以多维数据建模和观察,它由维和事实定义。 维是关于一个组织想要记录的视角或观点,每个维都有一个表与之相关联,称为维表。 事实表包括事实的名称或度量以及每个相关维表的关键字。以统计每个公司的人员学历情况为例,可以选择对应的数据集。

找到数据集中的表,按照指定的维度对指标进行分析,分析可以分为求和、平均值、计数以及最大值等计算,最后可以通过数据预览查看最终的效果。

6.3多维度分析

重点内容:多维度分析主要基于立方体生成,同时在配置多维度分析报表时要保障配置为多表头形式,在演示过程中需保障多维报表可拖拽方式进行配置,可以将列表头及行表头进行灵活配置,在配置完成进行预览。

6.4业务类报表

重点内容:业务报表多表头配置及报表导出PDF、Excel相关功能

DAP数据分析平台综合业务报表主要是跟据数据集为客户提供综合业务报表,其配置方法相对比较复杂,可以选择表头数据集以及报表数据集,综合业务报表通常是多表头的,效果如下:

在选择报表数据集后在下方会出现对应的字段,可以通过前方多选框勾选字段信息显示内容,是否固定功能通常设置在编码或者名称等具备标识性的信息进行固定。

数据行合并如上方最终显示样式,从下向上第一行是应发薪资、奖励薪资、奖惩薪资等,第二行为基础薪资、基础薪资、基础薪资都是相似的配置,如果勾选数据行合并后会将相同的第二行进行合并成一行,可以按照此配置来创建综合业务报表。

7组件配置

有了对应的分析模型,就可以进行组件的分析展示工作了,DAP数据分析平台预制了丰富的组件,涵盖条形图、柱形图、雷达图、饼图、散点图等等,跟据这些组件及分析模型就可以配置出丰富的组件,具体如下。

7.1页面布局

页面布局主要针对组件的展示位置进行样式配置,首先在导航管理处新增一个页面,在页面进行布局。

新增一个行容器进行布局设置,例如常见的页面布局如下。

可以新增两个行容器,上边行容器拆分成两个三个列容器,下边的行容器继续拆分成两个列容器,点击添加子容器。

增加三个子容器;

按照相同方法在下边的行容器上在增加两个列容器,具体效果如下:

注意:可以设置每个容器的属性也就是每个容器的宽度,容器的总长是12,注意设置属性的时候不能超过12

7.2组件配置

组件的配置主要针对现有的组件,如柱状图、折线图、雷达图等等,并以拖拽的方式配置组件,将组件拉取到上方创建好的布局容器当中。

接下来点击如下按钮配置组件实例:

然后在组件配置页面选择对应的数据集以及立方体。

按照实际的业务需求配置组件即可。

7.3页内联动

组件的页内联动以下图为例:

通过点击左侧的组织树,选择对应的组织右侧的组件以及表格可以随点击进行联动,其配置如下:

通过组件内部的组件联动模块进行配置,选择关联组件,接下来选择树形组件的标识字段,之后选择当前组件的关联字段即可实现组件的联动。

7.4穿透配置

穿透配置和上述组件联动的配置是大体类似的,通过组件的配置详情页面进行组件的穿透配置。

之后可以以打开标签或者弹出窗体的方式进行穿透,可以跳转到指定的页面。

之后配置对应的穿透字段即可。

8其它重点

其实对于数据治理而言,数据质量、数据安全、数据资产、数据标准、数据服务、数据地图、数据血缘都是DAP数据分析平台的重点,基于篇幅考虑笔者将在后续文档深入展开介绍。

8.1数据服务

在配置完成ODS表、数据集以及立方体后会生成对应的数据接收服务、数据统计服务以及数据查询服务,在演示时可以基于自动生成的数据服务URL进行接口服务的调用来查看对应的入参及出参信息,同时表述服务可以通过提供给其它业务厂商进行中台数据获取。

8.2数据地图

数据地图是对数据分析平台内数据资产进行统计,统计出包含多少业务系统、ODS表、维度表、基础事实表、汇总事实表及对应数据模型及分析模型信息。

可以通过点击对应标签查看当前业务系统包括哪些数仓数据表等。

8.3数据血缘

数据血缘功能主要对模型信息进行整体说明,说明当前模型来源业务系统有哪些、关联对应数据表有哪些等进行说明。

9心得体会

经过近期参与到一些售前工作,对于工作情况有一些反思和总结,现针对近期售前工作及全文内容做出总结说明。

9.1自身总结

通经过几次参与售前产品演示的工作发现有时自己准备工作做得不充足,所以在后续的售前准备阶段不仅要熟练地使用产品的功能,还要勤加练习,必要的时候请身边同事一同参与演示练习环节,针对性地给出意见和建议,保证现场演示的顺利进行。

9.2售前演示

经过本次参与售前工作发现自己售前经验不足,因此在后续的工作学习过程中要珍惜每一次售前机会,每一次售前都是一次历练自身的机会,更要精心准备,不断提升自身各方面能力,为后续的职业生涯奠定基石。

9.3数仓作用

首先数据分析平台落地的最基础的就是数仓的建设,而数据分析平台面向对象就是公司集团中高层管理者,那数据分析平台可以帮助该类人群解决什么样的实质问题呢?当数仓建立到运转,我认为可以帮助管理者解决以下几个问题:

1.数据治理分析将不同业务系统的数据进行加工汇总,管理决策者可以不必用他们的直觉来做出判断,一切依靠数据来说话

2.有时候业务主管可以不必依靠IT信息部人员就能快速的生成综合业务报表,大大节省了工作效率,不必担心数据的准确性,可真实的反应出内部的问题,从数据倒闭业务或者其他相关问题;

3.一个数仓储存了大量的历史数据,可以帮助企业分析不同的时期和趋势做出相应的对比,从而对未来进行预测。