文章目录
- 第一章 工业大数据系统综述
- 建设意义及目标
- 重点建设问题
- 第二章 工业大数据技术架构概述
- 数据采集与交换
- 数据集成与处理
- 数据建模与分析
- 决策与控制应用
- 技术发展现状
- 第三章 工业大数据技术架构实现
- 技术组件选择
- 数据采集
- 数据存储
- 数据计算
- 混合云架构
- 建设标准
- 基础业务能力
- 数据管理能力
- 运维管理能力
- 安全管理
- 性能要求
- 开放与兼容性
- 第四章 总结与展望
第一章 工业大数据系统综述
建设意义及目标
工业大数据是工业生产过程中全生命周期的数据总和,包括产品研发过程中的设计资料;产品生产过程中的监控与管理数据;产品销售与服务过程的经营和维护数据等。从业务领域来看,可以分为企业信息化数据、工业物联网数据和外部跨界数据。现阶段工业企业大数据存在的问题包括数据来源分散、数据结构多样、数据质量参差不齐、数据价值未有效利用等情况。
工业大数据技术的应用,核心目标是全方位采集各个环节的数据,并将这些数据汇聚起来进行深度分析,利用数据分析结果反过来指导各个环节的控制与管理决策,并通过效果监测的反馈闭环,实现决策控制持续优化。如果将工业互联网的网络比做神经系统,那工业大数据的汇聚与分析就是工业互联网的大脑,是工业互联网的智能中枢。
工业大数据系统的建设首要解决的是如何将多来源的海量异构数据进行统一采集和存储。工业数据来源广泛,生产流程中的每个关键环节都会不断的产生大量数据,例如设计环节中非结构化的设计资料、生产过程中结构化的传感器及监控数据、管理流程中的客户和交易数据、以及外部行业的相关数据等,不仅数据结构不同,采集周期、存储周期及应用场景也不尽相同。这就需要一个能够适应多种场景的采集系统对各环节的数据进行统一的收集和整理,并设计合理的存储方案来满足各种数据的留存要求。同时需要依据合适的数据治理要求对汇入系统的数据进行标准和质量上的把控,根据数据的类型与特征进行有效管理。之后就需要提供计算引擎服务来支撑各类场景的分析建模需求,包括基础的数据脱敏过滤、关联数据的轻度汇总、更深入的分析挖掘等。这些都需要为工业大数据系统选择合适的基础架构作支撑。
建设工业大数据系统能有效地整合工业生产各个环节零散的数据,进行统一的收集、管理和应用,在产品设计环节,全面地收集用户需求,在生产环节有效地提高设备运行可靠性、提升产品生产效率,在销售环节增强用户体验、提升服务质量,实现制造-服务-用户之间状态和数据的互联互通,使企业能获得全方位的数据感知,及时调整运行模式,做出合理决策。
重点建设问题
建设企业级工业大数据系统,需要解决多个层面的问题,业务层面需要对各个环节的数据进行梳理和分析,形成完善的数据体系,来描述完整的工业生产流程;技术层面需要建立统一的大数据系统来汇集和处理工业全流程的数据,其中需要根据具体的业务场景选择合适的技术架构,系统建设中需要重点考虑的问题包括以下四个方面:
* 如何采集来自多种数据源的异构数据;
* 如何按照不同的数据留存需求进行高效存储;
* 如何按照业务需求选择数据计算引擎和处理工具;
* 如何保障系统的安全和稳定运行。
第二章 工业大数据技术架构概述
2016 年工业互联网产业联盟发布的《工业互联网体系架构(1.0)》中的工业互联网数据体系架构图:
可以总结为数据采集与交换、数据集成与处理、数据建模与分析和数据驱动下的决策与控制应用四个层次,功能架构见图:
采集交换层:主要指从传感器、SCADA、MES、ERP 等内部系统,以及企业外部数据源获取数据的功能,并实现在不同系统之间数据的交互。
集成处理层:从功能上,主要将物理系统实体的抽象和虚拟化,建立产品、产线、供应链等各种主题数据库,将清洗转换后的数据与虚拟制造中的产品、设备、产线等实体相互关联起来。从技术上,实现原始数据的清洗转换和存储管理,提供计算引擎服务,完成海量数据的交互查询、批量计算、流式计算和机器学习等计算任务,并对上层建模工具提供数据访问和计算接口。
建模分析层:功能上主要是在虚拟化的实体之上构建仿真测试、流程分析、运营分析等分析模型,用于在原始数据中提取特定的模式和知识,为各类决策的产生提供支持。从技术上,主要提供数据报表、可视化、知识库、机器学习、统计分析和规则引擎等数据分析工具。
决策控制层:基于数据分析结果,生成描述、诊断、预测、决策、控制等不同应用,形成优化决策建议或产生直接控制指令,从而对工业系统施加影响,实现个性化定制、智能化生产、协同化组织和服务化制造等创新模式,最终构成从数据采集到设备、生产现场及企业运营管理优化的闭环。
功能架构在对应到具体的技术实现时可以参考下图中的技术架构:
数据采集与交换
将工业互联网中各组件、各层级的数据汇聚在一起,是大数据应用的前提。要实现数据从底层向上层的汇集,以及在同层不同系统间传递,需要完善的数据采集交换技术支持。工业互联网系统是一个分布式系统,有众多不同的组件组成,为了避免在不同系统间建立连接导致的 N 平方复杂性,一般采取消息中间件(Message-oriented middleware)技术来实现。如下图所示,消息中间件的主要功能是实现消息传输管理、队列管理、协议转换等功能。主流消息中间件产品包括IBM 的 MQ、Oracle 公司的 JMS、微软的 MSMQ 等。消息中间件通过 MQTT、DDS、AMQP、XMPP 等协议与不同系统对接。
工业大数据采集交换层技术图:
一个比较大的工业互联网系统中,数据来源和数据需求系统可能有成百上千个,为了简化数据交换,一般采取“发布/订阅”模式传递消息。数据生产者将数据发送给消息中间件,数据消费者则向消息中间件发出一个订阅条件,表示对系统中的哪些数据感兴趣,如果不再感兴趣,则可以取消订阅;而消息中间件则根据一定的路由算法,将生产者发布的事件及时、可靠地传送给所有对之感兴趣的消费者。信息的生产者也称为发布者(Publisher),信息的消费者称为订阅者(Subscriber)。
数据采集是对各种来自不同传感器的信息进行适当转换例如采样、量化、编码、传输。一个数据采集系统,一般包括数据采集器、微机接口电路、数模转换器。
数据交换是指工业大数据应用所需的数据在不同应用系统之间的传输与共享,通过建立数据交换规范,开发通用的数据交换接口,实现数据在不同系统与应用之间的交换与共享,消除数据孤岛,并确保数据交换的一致性。
工业系统中,数据采集与交换是工业系统运作的基底,从微观层每一个零部件信息,到宏观层整个生产流水线信息,如何基于各种网络链接实现数据从微观层到宏观层的流动,形成各个层、全方位数据链条,并保证多源数据在语义层面能够互通,降低数据交换的时延,以实现有效数据交换,技术上是一个比较大的挑战。
数据集成与处理
工业大数据集成就是将工业产品全生命周期形成的许多个分散的工业数据源中的数据,逻辑地或物理地集成到统一的工业数据集合中。工业大数据集成的核心是要将互相关联的分布式异构工业数据源集成到一起,使用户能够以透明的方式访问这些工业数据源,达到保持工业数据源整体上的数据一致性、提高信息共享与利用效率的目的。
工业大数据处理是利用数据库技术、数据清洗转换加载等多种工业大数据处理技术,将集成的工业数据集合中大量的、杂乱无章的、难以理解的数据进行分析和加工,形成有价值、有意义的数据。
工业大数据集成处理层,主要涉及数据的抽取转换加载(ETL)技术、数据存储管理技术、数据查询与计算技术,以及相应的数据安全管理和数据质量管理等支撑技术。其中,ETL、数据查询与计算等技术,与互联网大数据技术相似,而基于开源的 Hadoop 等技术将成为未来的发展趋势,具体如下面工业数据集成处理框架图所示。
其中,ETL 包括三部分:数据抽取、清洗转换与加载。数据抽取主要将分散的、异构工业数据源中的数据如关系数据、平面数据文件等抽取到临时中间层;数据清洗是对抽取到临时中间层的数据进行审查、过滤和校验,旨在去除噪声数据、删除重复信息、纠正错误,并维护数据的一致性;数据转换主要包括数据格式规范化与数据拆分等,数据规范化实现字段格式的约束定义,以利于数据的建 模与分析;数据加载是将已经加工好的数据加载到数据仓库中。
由于加载到数据仓库中数据量巨大,且包含结构化、半结构化和非结构化数据,传统的关系型 SQL 数据库难以满足大数据的存储与管理。因此,需要借助实时数据库、关系数据库、NoSQL 数据库,实现工业大数据的存储与管理。实 时数据库是基于实时数据模型建立,用于处理不断更新、快速变化以及具有时间限制的数据,随着技术的演进,时序数据库也逐渐兴起,在部署方式、检索性能及使用成本上对比传统实时数据库均有优化;关系型数据库是采用关系模型来组织数据,用于处理永久、稳定的数据;NoSQL 数据库是指非关系型的数据库,具有灵活的可扩展性,在大数据量下具有非常高的读写性能。
数据查询与计算主要采用 SQL 查询引擎、批处理、流处理、机器学习等方法。其中,SQL 查询引擎将用户输入的 SQL 语句序列转换为一个可执行的操作序列,并返回查询结果集;批处理主要操作大容量静态数据集,并返回计算结果;流处理则对实时进入系统的数据进行计算,处理结果即时可用,并将随新数据的到达持续更新。
数据服务层的主要作用是提供数据服务的接口,以实现工业大数据的访问、更新等基本功能。
数据建模与分析
数据建模是根据工业实际元素与业务流程,在设备物联数据、生产经营过程数据、外部互联网等相关数据的基础上,构建供应商、用户、设备、产品、产线、工厂、工艺等数字模型,并结合数据分析提供诸如数据报表、可视化、知识库、数据分析工具及数据开放功能,为各类决策提供支持。工业大数据分析建模技术,已经形成了一些比较成熟稳定的模型算法。从大的方面可以分为基于知识驱动的方法和基于数据驱动的方法。有时候数据可视化技术本身也被称为一种数据分析方法。工业大数据建模分析技术体系如图所示。
知识驱动的分析方法,是基于大量理论模型以及对现实工业系统的物理、化学、生化等动态过程进行改造的经验,建立在工业系统的物理化学原理、工艺及管理经验等知识之上,包括基于规则的方法、主成分析技术、因果故障分析技术和案例推理技术等。其中,知识库是支撑这类方法的基础。
数据驱动的分析方法,很少考虑机理模型和闭环控制逻辑的存在,而是利用算法在完全数据空间中寻找规律和知识,包括神经网络、分类树、随机森林、支持向量机、逻辑回归、聚类等机器学习方法,以及基于统计学的方法。两类方法的对比如表 1 所示,分别适用于不同的场景。
工业数据分析的两类主要方法对比:
决策与控制应用
根据数据分析的结果产生决策,从而指导工业系统采取行动,是工业大数据应用的最终目的。工业大数据应用可以分为以下 5 大类:
(1)描述类(descriptive)应用:主要利用报表、可视化等技术,汇总展现工业互联网各个子系统的状态,使得操作管理人员可以在一个仪表盘(dashboard)上总览全局状态。此类应用一般不给出明确的决策建议,完全依靠人来做出决策。
(2)诊断类(diagnostic)应用:通过采集工业生产过程相关的设备物理参数、工作状态数据、性能数据及其环境数据等,评估工业系统生产设备等运行状态并预测其未来健康状况,主要利用规则引擎、归因分析等,对工业系统中的故障给出告警并提示故障可能的原因,辅助人工决策。
(3)预测类(predictive)应用:通过对系统历史数据的分析挖掘,预测系统的未来行为。主要是利用逻辑回归、决策树等,预测未来系统状态,并给出建议。
(4)决策类(deceive)应用:通过对影响决策的数据进行分析与挖掘,发现决策相关的结构与规律,主要是利用随机森林、决策树等方法,提出生产调度、经营管理与优化方面的决策建议。
(5)控制类(control)应用:根据高度确定的规则,直接通过数据分析产生行动指令,控制生产系统采取行动。
基于大数据的工业决策控制技术的框架如下图所示。
技术发展现状
现阶段工业大数据的建设仍处于发展极不均衡的状态,部分先进的工业企业已经利用大数据技术整合各环节数据资源,为生产和服务提供精准的数据支撑,但仍有部分工业企业尚未实现信息化或信息化程度不高,需要从最底层的设备开始更新与改造,以适应新的数字化生产流程,规范各环节数据资料,结合大数据技术进一步地优化生产过程和服务质量。在发展工业大数据的各阶段下主要出现了以下三个问题:
(1)设备老旧导致数据采集困难:在许多制造行业中,由于仍然使用传统的生产设备,并且因为各类原因对产线设备进行更新换代较为困难,一些关键的生产数据无法采集,不能全面的监控产线的生产情况。这种情况下,需要在设备上加装外置传感器,并对传感器采集到的生产数据进行实时地汇集监控,来全面感知产线的生产情况。
(2)数据跨平台跨部门整合耗时:在工业领域进行业务分析时,往往需要整合多个数据源的信息,这些数据种类繁多、数据量大、数据质量参差不齐,有时甚至需要跨部门沟通,走繁琐的审批流程,在经过了一系列关卡收集并整理好数据后,由于耗费时间太长,一些具有时效性的数据就会产生价值流失。需要建设持续的、自动化的、全量的数据采集机制,来保证数据的价值被有效地利用。
(3)初期缺乏规划导致应用竖井:在开展大数据应用的初期,由于大部分是业务驱动,各项目单独建设大数据系统,缺乏统一规划,容易造成应用竖井,数据重复采集、基础信息不一致,从而不可避免的出现资源浪费、数据关联性差,无法高效的利用数据价值。所以需要企业有全面的大数据系统建设规划,对数据进行统一采集和管理,为后续各种场景的分析应用提供良好的数据环境。
第三章 工业大数据技术架构实现
技术组件选择
数据采集
随着工业制造中各层的精细化与制程的高密度化,工业制造所产生的数据必然形成好几个等级的增长。面对如此庞大与多样的数据整合问题,企业必须有整体统一的数据汇聚与应用策略,设计通用可靠的数据采集机制,来满足各方面的数据采集需求。数据采集的完整性、准确性,决定了数据应用是否能真实可靠地发挥作用。因此,在建设数据采集系统时,建议着重考虑以下五个要求:
(1)数据接口通用性:由于新技术更新换代较频繁,需要进行版本管理,并定期更新接口,建议用统一的数据交换格式来适应接口频繁更新的情况,使接口能够快速调整。
(2)支持广泛的数据源:采集技术需支持尽可能多的数据源端。
(3)支持横向扩展:当设备增加时,所造成的性能瓶颈须能通过横向扩展的方式解决。
(4)保证数据不遗失:采集过程中须确保数据准确地、不遗失地送达处理层与储存层。
(5)避免增加基础建设复杂度:在不断扩充设备的情况下,采集技术不应增加基础建设扩展时的负担。
从工业数据的来源进行分类,主要包括管理系统、生产系统、外部数据三大方面的数据来源。从数据采集的全面性上看,不仅要涵盖基础的结构化交易数据,还将逐步包括半结构化的用户行为数据,网状的社交关系数据,文本或音视频类型的用户意见和反馈数据,设备和传感器采集的周期性数据,以及未来越来越多有潜在意义的各类数据。下表整理出了一些工业大数据系统中常见的数据源及其数据特性,供参考:
管理系统数据采集:这里讨论的管理系统的数据包括了工业产品的设计资料、价值链管理数据及生产过程中的资源管理数据。
- 设计资料:设计资料大多来源于传统工业设计和制造类软件,如:CAD、CAM、CAE、CAPP、PDM 等。这类数据主要是各类产品模型,以及相关的图纸或电子文档,大多数为非结构化数据。这些设计类数据的采集对时效性要求不高,只需定期批量导入大数据系统。
- 价值链管理数据:价值链数据主要指企业生产活动中上下游的信息流数据,主要来源于供应链管理系统(SCM)、客户关系管理系统(CRM)等。这类数据主要包含供应链信息和客户信息,通常是规范的结构化数据,采集时对时效性要求不高,只需按业务分析要求的更新周期定期批量导入大数据系统。
- 资源管理数据:资源管理数据的来源主要是生产环节的各类管理系统,包括企业资源计划(OA/ERP)、生产过程执行系统(MES)、产品生命周期管理(PLM)、环境管理系统(EMS)、仓库管理系统(WMS)、能源管理系统等。这类数据主要描述了生产过程中的订单数据、排程数据、生产数据等,大多数为标准的结构化数据,采集时对时效性要求不高,只需按业务分析要求的更新周期定期批量导入大数据系统。
生产系统数据采集:这里讨论的生产系统数据主要来自工业控制系统、生产监控系统、各类传感器以及其他外部装置。
- 工业控制系统数据:工业控制系统数据的来源主要包括分布式控制系统(DCS),以及可编程逻辑控制器(PLC)这类系统。通常 DCS 与 PLC 共同组成本地化的控制系统,主要关注控制消息管理、设备诊断、数据传递方式、工厂结构,以及设备逻辑控制和报警管理等数据的收集。此类数据通常为结构化数据,且数据的应用通常对时效性要求较高,需要数据能及时地上报到上层的处理系统中。
- 生产监控数据:生产监控数据主要来源于以 SCADA 为代表的监视控制系统。SCADA 系统的设计用来收集现场信息,将这些信息传输到计算机系统,并且用图像或文本的形式显示这些信息。这类数据也是规范的结构化数据,但相对DCS 和 PLC 系统来说,SCADA 系统可以提供实时的数据,同时也能提供历史数据。因此在考虑数据的采集策略时,需要根据上报数据的类型来选择是实时采集或是批量导入。
- 各类传感器:在生产车间的很多生产设备并不能提供生产数据的采集和上传,因此需要通过外接一套额外的传感器来完成生产数据的采集。外挂式传感器主要用在无生产数据采集的设备或者数据采集不全面的设备上、以及工厂环境数据的采集。同时外挂式传感器根据使用现场的需求,可以采用接触式的传感设备和非接触式的传感设备。此类数据的单条数据量通常都非常小,但是通信总接入数非常高,即数据传输并发度高,同时对传输的实时性要求较高。
- 其他外部装置:其他外部装置产生的数据以视频摄像头为例,数据主要来源于对产品的质量监控照片、视频,或者是工厂内的监控视频等。此类数据的特点是数据量大,传输的持续时间长,需要有高带宽、低时延的通信网络才能满足数据的上传需求。对于其他不同于视频数据的外部装置数据,需要针对数据的特性进行采集机制的选择。
外部系统数据采集:外部系统数据主要来源于评价企业环境绩效的环境法规、预测产品市场的宏观社会经济数据等,此类数据主要用于评估产品的后续生产趋势、产品改进等方面,与管理系统的数据采集类似,可以通过标准的 RJ45 接口进行数据的传输。通常本类数据相对静止,变化较小,因此数据的上传频次较低。
综合上述多类数据源的采集场景和要求,系统的集成导入应同时具备实时接入(如:工业控制系统、生产监控数据、各类传感器)和批量导入(如管理系统、外部数据)的能力,同时能根据需要提供可定制化的 IoT 接入平台。具体建设要求如下:
(1)对于需要实时监控、实时反向控制类数据,可通过实时消息管道发送,支持实时接入;如:工业控制系统数据、生产监控系统数据等。建议可采用如 Kafka、Fluentd 或是 Flume 等技术,这类技术使用分布式架构,具备数据至少传输一次的机制,并为不同生成频率的数据提供缓冲层,避免重要数据的丢失。
(2)对于非实时处理的数据,可采取定时批量地从外部系统离线导入,必须要支持海量多源异构数据的导入;如:资源管理数据、价值链数据、设计资料等。建议可采用 Sqoop 等数据交换技术,实现 Hadoop 与传统数据库(MySQL、Oracle、 Postgres 等)间大批量数据的双向传递。
(3)当系统中有大量设备需要并发且多协议接入时,如各类传感器件,可部署专业 IoT 接入网关,IoT 接入平台需同时具备支持 TCP、UDP、MQTT、CoAP、LWM2M 等多种通信协议的能力。在面对各类传感器的数据采集时,可以结合RFID、条码扫描器、生产和监测设备、PDA、人机交互、智能终端等手段采集制造领域多源、异构数据信息,并通过互联网或现场总线等技术实现源数据的实时准确传输。有线接入主要以 PLC、以太网为主。无线接入技术种类众多,包括条形码、PDA、RFID 、Zigbee、WiFi、蓝牙、Z-wave 等短距离通信技术和长距无线通信技术。其中,长距离无线技术又分为两类,包括工作于未授权频谱的 LoRa、SigFox等技术和工作于授权频谱下传统的2/3/4G蜂窝技术及其3GPP支持的LTE演进技术,如 LTE-eMTC、NB-IOT 等。
数据存储
工业大数据系统接入的数据源数量大类型多,需要能支持 TB 到 PB 级多种类型数据的存储,包括关系表、网页、文本、JSON、XML、图像等数据库,应具备尽可能多样化的存储方式来适应各类存储分析场景,总结为如下表格:
在不同的工业数据应用场景中,数据存储的介质选择十分重要,下面列举一些经典的使用场景来介绍如何选择存储技术:
(1)实时监控数据展示:通常情况下实时采集的监控数据在进行轻度的清洗和汇总后会结合 Web UI 技术实时展现生产线的最新动态。这类及时性互动性高的数据一般使用内存数据进行存储,如 Redis、Ignite 等技术,可以快速响应实时的查询需求。
(2)产线异常的分析与预测:使用机器学习技术对产线数据进行深入挖掘分析运行规律,可以有效地对产线的异常进行分析和预测,进而改善制程、减少损失、降低成本及人为误判的可能性。这类用于分析的历史数据一般选择使用HDFS、Cassandra 等分布式储存,适用于海量数据的探索和挖掘分析。同时,对于这类与时间顺序强相关的分析场景,数据的存储可以选择 InfluxDB 这类时序数据库,可以极大提高时间相关数据的处理能力,在一定程度上节省存储空间并极大地提高查询效率。
(3)商业智能: 如果需要整合多种数据来制作商业策略性报表,适合使用结构化储存,比如传统的关系型数据库,MySQL、Oracle 等。如果需要考虑性能和及时性,可以考虑分类存储至 NoSQL 数据库,如 Cassandra、HBase 与 Redis 等。
数据计算
大数据系统通常需要能够支持多种任务,包括处理结构化表的 SQL 引擎、计算关系的图处理引擎和进行数据挖掘的机器学习引擎,其中面向 SQL 的分析主要有交互式查询、报表、复杂查询、多维分析等。各类计算引擎对应适用场景图如下:
- 实时计算引擎,包括 Storm、Spark Streaming、Flink 等业界通用架构,适用于基于窗口或消息的实时数据处理,结果响应的时延要求在毫秒级;
- 离线计算引擎,包括 MapReduce、Spark、Hive,适用于批数据分析和定时分析等;
- 图计算引擎,适用于事件及人之间的关联关系分析;
- 数据综合分析 OLAP,如 MPP 数据库,适用于综合报表分析;
- 业务交互查询 OLTP,如 MySQL、SQLServer、Oracle、PostgreSQL 等,适用于交互式查询分析;
- 分布式数据库中间件,可解决数据库容量、性能瓶颈和分布式扩展问题,提供分库分表、读写分离、弹性扩容等能力,适用于海量数据的高并发访问场景,有效提升数据库读写性能。
- 数据挖掘能力,为了能够匹配工业大数据决策与控制应用的 5 大场景,特别是诊断类、预测类、决策类应用闭环的要求,系统应该具备完善的机器学习、深度学习、图计算等平台级能力。机器学习能力如基于开源 Spark 框架推出的算法库 MLlib、 GraphX 等;深度学习有 TensorFlow、Caffe、MXNet 等平台;图计算能力,业界相对比较流行的开源产品有 Titan,另外还有很多优秀的商业产品可供选择。
总体来说,大数据平台的计算组件应该能够支持批量和实时两大类任务,同时具备精细化的任务和资源调度的能力。
混合云架构
结合工业企业的 IT 现状和对数据安全、建设成本等因素的综合考量,可以引入混合云架构来满足现代工业大数据建设的诉求。对实时性要求高,与生产强相关,特别是需要及时闭环控制的应用系统可部署在线下,而大数据量的分析类、预测类应用可以部署在云上,尤其是偏物联网的应用,这样可以有效均衡架构的私密性、便捷性、可维护性及性价比。
部署选型建议:
建设标准
基础业务能力
首先要考虑工业大数据系统功能的完整性,即支撑大数据应用全生命周期的基础业务能力,例如接入、存储、分析等。基础业务能力的考虑方向主要包括数据导入、存储与计算、多任务引擎等三方面。
数据导入。大数据系统必须要支持海量多源异构数据导入,具体来说需要支持传统数据库、本地、FTP 等多种数据源;支持结构化、半结构化和非结构化数据的导入;支持定时、实时、循环任务的数据导入方式。
数据标准化。系统需要提供能够对数据进行有效处理和管理的工具能力,使进入系统的数据符合企业的数据治理要求,保证平台数据的完整性、有效性、一致性、规范性、开放性和共享性。
数据存储和计算。大数据平台应该能支持 TB 到 PB 级多种类型数据的存储,包括关系表、网页、文本、JSON、XML、图像等数据库。平台的计算组件应该能够支持批量和实时两类任务,同时具备精细化的任务和资源调度的能力。
多任务引擎。数据平台需要能够支持多种任务,包括处理结构化表的 SQL引擎、计算关系的图处理引擎和进行数据挖掘的机器学习引擎。其中面向SQL 的分析主要有交互式查询、报表、复杂查询、多维分析等。
基础分析模型。大数据系统应具备基础的业务分析模型,能够针对特定场景的分析要求,进行自动化的业务自助分析。
可视化报表工具。大数据系统应能提供生产可视化报表的能力,需要提供常用的折线图、柱状图、饼图、表格等组件,并支持自定义可视化组件或第三方可视化工具。
数据管理能力
工业大数据系统的基础数据管理能力1应包括以下几项:
- 数据标准制定:工业大数据系统需要支持统一的数据标准制定,使用合理的数据标准,可以有效约束平台数据的完整性、有效性、一致性、规范性、开放性和共享性,从而提高企业进行数据治理的水平。
- 数据模型管理:数据模型是对数据特征的抽象,用于描述一组数据的概念和定义。大数据系统中的数据模型管理应支持数据模型的设计、数据模型和数据标准词典的同步、数据模型的审核发布、差异对比、版本管理等。能有效指导企业进行数据整合,提高数据质量。
- 元数据管理:元数据是描述数据的数据。大数据系统中的元数据管理能对数据进行有效地解释说明并有助于企业理解数据的真实含义。
- 数据质量管理:数据质量是保证数据应用的基础。大数据系统中的数据质量管理机制需要能保证数据的完整性、规范性、一致性、准确性、唯一性和关联性,来帮助企业获得高质量的、结构清晰的数据,以更好的服务上层应用。
- 生命周期管理:生命周期管理是指对数据产生、存储、传输、使用和删除的全过程进行管理,依据不同数据在不同阶段的价值实施不同的管理策略,降低存储成本,提升数据价值,以达到最高效的管理效果。
- 数据安全管理:大数据系统应具备针对数据的安全管理策略,从隐私保护、信息加密、鉴权控制、日志审计等多个方面确保数据安全,做到事前可管、事中可控、事后可查。
- 数据开放:数据开放主要指基于数据资源,开展数据共享和交换,通过各种管控机制的保障,使数据能通过标准化接口方式提供给外部需求方,发挥更大的价值。
运维管理能力
大数据平台在生产环境下的部署、运行与维护,需要做到高可靠、简操作、易扩展,避免后期维护产生高昂成本。需要从大数据平台的运维能力、弹性扩展能力和安全防护能力等几个维度考虑。
- 运维能力。支持一键式或者向导式的安装部署;支持集群平滑升级;能够对集群、各类组件、任务状态进行监控,进行启动、停止、增加、卸载等常规操作,并能够配置集群的各项参数;能够收集集群和组件的运行的日志,对日志进行检索和下载;能通过界面、邮件、短信等形式对集群的各类故障进行告警,能够在界面对告警值域进行配置;支持运维用户的角色分类,支持用户账号的增、删、改,细粒度的权限分配。
- 弹性扩展能力。大数据系统需要能随着数据和业务的快速发展而自由扩展,可扩展性是大数据平台的重要能力之一,一是要支持集群的水平与垂直扩展,提升大数据平台的存储和计算能力,二是实现数据的快速分布和自动均衡,无需人工过多干预。
- 高可用。大数据系统需要支持包括数据节点、服务节点、网络环境的主备切换能力,从而保证服务的延续性。
- 备份管理。大数据系统需要具备风险预防机制和灾难恢复措施,系统中的数据需要按照不同类别进行不同周期、不同方式和地理位置的区分备份。
安全管理
安全管理的目的是为了保证系统安全运行,与此同时防止系统受到外来攻击、破坏和非法访问,需要在不同层次利用多种手段来保证系统的安全。安全管理主要包括系统的主机安全、网络安全、数据安全、应用安全、以及数据访问审计日志等功能。
安全指标考量大数据系统是否能够提供基本的安全方案,以防止恶意的访问和攻击,防止关键数据的泄露,可以从以下几个方面考量:
- 主机安全:大数据系统需要选择安全的操作系统版本,并对操作系统进行基础的安全配置和安全加固,以确保系统安全、可靠、高效地运行。
- 网络安全:网络系统和服务器系统具有入侵检测的功能,可监控可疑的连接、非法访问等,采取的措施包括实时报警、自动阻断通信连接或执行用户自定义的安全策略。网络和服务器系统能定期检查安全漏洞及病毒,根据扫描的结果更正网络安全漏洞和系统中的错误配置;使用加密技术对在互联网上传输的重要数据进行加密。与外部系统连接配置防火墙设备,并定义完备的安全策略。
- 数据安全:数据安全是保证数据库和其它文件只能被授权用户访问和修改,防止在本地存储或者网络传输的数据受到非法篡改、删除和破坏。数据相关的安全控制包括数据加密、访问控制、数据完整性、数据防篡改。
- 应用安全:需要对账号进行集中管理和统一认证,并对操作进行记录和审计,防范 SQL 注入、防范跨站攻击等。
- 日志审计:对设备日志、操作系统日志、系统平台日志、应用日志等进行留存和审计。
性能要求
需要全面考察平台在不同数据规模和任务场景下的性能表现。主要的指标有吞吐量、响应时间、最大并发等。实际性能表现需要对平台进行测试,典型的测试场景包括根据自身业务确定的单项任务和多种混合任务测试,以及压力测试和稳定性测试。考虑到大数据系统运营的基本需求,需要考察以下性能项:
开放与兼容性
大数据系统的建设,还需要考虑到开放性与兼容性,能够与既有系统无缝衔接,能够兼容支持各类数据源、外围协同系统及上层各类应用。
- 开放性。要求能够支持主流的开源技术,比如 Hadoop、Spark、MySQL、Greenplum 等开源社区技术,能够对相关的组件进行替换和更新,方便集成与优化。同时提供开放接口,支持与各类外部系统的对接。
- 兼容性。由于传统用户的大部分数据分析任务是以结构化数据为主的SQL 任务,为了节约学习成本,实现平稳过渡,大数据系统要求能兼容更多的 SQL 的标准和语法;其次需要支持 JDBC、ODBC 等通用接口,从而保证对接传统的数据库、上层 BI 工具等各类上下游产品,方便系统和应用开发的便捷性;系统还需要能够支持异构的硬件和不同的操作系统,从而保证上层应用对于异构软硬件设备透明能力,充分利用各类资源。
第四章 总结与展望
随着对工业大数据体系架构研究的不断深入,我们将现阶段工业大数据系统建设的几个要点列举如下:
- 一是跨层次跨环节的数据整合。当前的工业数据以水平来看分散在研发设计、生产管理、企业经营等各个环节,垂直来看分散在生产现场、企业管理等不同层次,为了更好地支撑生产经营各环节的应用分析需求,需要更深入完整地进行数据整合。
- 二是选择合适的架构进行系统的部署及数据的集成。大数据系统的实施需要充分考虑企业现状,以及对数据安全、建设成本等多项因素的要求,有效结合本地化服务与云服务,以达到最佳的使用效果。
- 三是建立适合企业的资产管理机制,将数据看作企业资产,梳理并明确各类数据的意义,形成企业级甚至行业级的通用数据模型,制定数据安全管理规范,对数据进行高效管理,提升数据质量,以实现更大的价值。
- 四是关联工业生产各环节的数据进行分析。工业生产流程和经营流程环环相扣,每一步的变动都可能影响到下一步的发展,数据分析也应与工业系统的各环节紧密结合,以形成闭环的设备、生产现场及企业运营管理优化的整体态势分析。