信息技术架构

发布时间:2018-12-5信息来源:热度:

11.1        概述

       数据本身不会自动产生价值,要使海量数据的累积转化为业务洞察力以及效益的增长,需要分析企业的业务需求及转型需求,并进行信息化建设规划,确定业务架构和信息系统架构之后,需要综合使用当前先进的信息技术,如云计算、物联网、互联网、大数据、人工智能等,构建适当的大数据应用分析平台,以在可接受的时间内处理数据,并挖掘出海量数据中潜在的价值,支持企业的业务目标实现及业务转型升级。

       正如建筑工程的开展需要设计蓝图作为指导,大数据应用分析平台的构建需要技术架构为指导。所谓信息技术架构(Information Technology Architecture, ITA)是指对支撑企业业务的大数据分析平台服务的结构和交互,以及逻辑和物理技术组件的描述,它定义了技术组合的基线和目标视图,以及从基线架构到目标架构的一份详细的演进路线图,并借此识别出在过渡过程中的关键工作包。技术架构将应用架构中定义的各种应用组件映射为相应的可以从市场或组织内部获得的技术组件,是制定架构信息集合(包括业务架构、信息系统架构、技术架构)的最后一步。

       当前,随着工业4.0浪潮的兴起,云计算、物联网、大数据、互联网+等信息技术不断向工业领域融合渗透,在各国政府、全球一线制造业厂商、各大企业及研究机构的努力下,国内外已研发、建设完成一系列工业云服务及(工业)大数据处理相关的开源技术组件。随后,人工智能的热浪又已接踵而至,深度学习、群体智能、人机混合增强智能、跨媒体计算等技术的发展,将人工智能带入了2.0时代,极大地拓展了人工智能的领域范围,为人工智能更深、更广的应用提供了坚实的技术基础,也为工业领域的智能化转型提供了可选方案。

       因此,工业企业在规划大数据应用技术架构时,可根据需要选用不同类型、不同级别的工业云服务,以更专注于企业擅长的业务领域及技术领域;也可使用开源组件全部自行搭建。通常,我们建议中小型企业直接使用云服务或加入行业工业云平台生态圈,以较少的代价设计实现大数据应用,而大型企业则可以自行搭建大数据平台,以便根据企业业务发展需要对平台进行不断优化和调整。

11.2        大数据开源技术组件

       一般来说,大数据的处理可分为如下六个阶段:(1)数据采集阶段:将各种数据源的数据采集到大数据处理平台,需解决数据传输的实时、高效及可靠问题;(2)数据存储阶段:妥善存储收集的海量数据,需解决海量数据存储的可靠性、可伸缩性及高效、安全访问的问题,并且,存储方案要尽量廉价;(3)数据计算阶段:在可接受的时间内完成海量数据(PB级)的处理,需解决计算性能、可靠性及可伸缩性问题;(4)分析与挖掘阶段:快速分析及挖掘海量数据隐藏的知识,需解决不同背景的分析人员直接使用数据计算工具门槛太高、效率低下的问题;(5)ETL(Extract-Transform-Load,抽取-转换-加载)阶段:构建数据仓库,以提高数据分析效率;(6)可视化阶段:以直观的方式展现大数据处理结果,以便相关人员快速获取处理结果中包含的信息,快速决策。

       大数据的概念自提出以来,各大公司、研究机构纷纷提出各自的解决方案,经过数十年的发展,上述大数据处理的各个阶段均已研发出相对成熟的技术组件,如下图所示。



11.3        工业大数据信息技术架构

       随着信息化与工业化的深度融合,尤其是互联网、移动互联网、物联网等新一代信息技术在工业领域的应用,信息技术已渗透到了工业企业产业链的各个环节,条形码、二维码、RFID、工业传感器、工业自动控制系统、工业物联网、CAD/CAM/CAE/CAPP等技术以及ERP、MPS、MES、SCM、BOM等信息系统在工业领域得到广泛应用,工业企业所拥有的数据也日益丰富,包括设计数据、传感数据、自动控制系统数据、生产数据、供应链数据等,数据来源多,非结构化数据比例大,数据蕴含的信息复杂且关联性强,且不少数据是持续采集的,如传感数据、生产线数据等,具有鲜明的动态时空特性,生产线的高速运转要求更高的数据处理实时性,敏感数据和价值重大的数据要求更好的安全性和保密性,而数据的价值体现及其带来的洞察力除了精准营销外,还包括智能制造、个性化定制、设备/产品故障诊断与预测等。工业大数据技术架构下图。

11.3.1   数据层

       制造业企业每天甚至每时每刻都在产生着大量的数据,种类繁多,覆盖了工业产品的全生命周期,包括设计数据、生产数据、价值链数据,以及相关的外部数据。

11.3.2   数据采集层

       制造业企业每天每时每刻都在源源不断地产生数据,因此获得大量原始数据并非难事,但数据并不一定能产生价值,一方面,数据的利用程度不高,如,对设备相关数据,在以前,设备出问题时才从历史数据中寻找问题的原因,并只处理当前的问题,没有及时产生信息;随着数据量的不断增大,数据的价值密度却在降低,企业经营、管理人员更难以从浩瀚的数据海洋中一眼看出数据之间的关联、发展趋势及其蕴含的价值,因此,需要将这些数据采集到大数据分析平台,进行分析、挖掘,以使数据充分发挥其应有的价值;另一方面,数据的可用程度不高,有可能采集到的数据90%以上都是无用的,因此,须从功能端和应用端出发,以决定应该采集哪些数据,以及如何对这些数据进行分类和优先级排序,以分析目标(如预测性维护、精确营销等)为导向,有选择、有侧重地采集数据。再按照信息分析的频度和重点进行自适应、动态的数据到信息的转换,解决海量信息的持续存储、多层挖掘、层次化聚类调用问题,进而达到从数据到信息的智能筛选、存储、融合、关联、调用,实现有效的信息提取。

       当前,数据采集工具主要有两类,一类用于日志类数据和文档类数据的实时采集传输,代表性工具包括Flume、Kafka、Scribe等,另一类用于在关系数据库和分布式存储系统(典型地,如HDFS、HBase)之间进行数据的相互转移,代表性工具为Sqoop。

       通过采集获得的数据,可能会有很多噪音,还有很多没用的数据以及非稳态信号,需要进行清洗及预处理,而高频采集的数据,如传感器数据,数据量非常大,也需要进行一定的处理,以利于后续的数据存储及分析计算。通常,对于噪音,可以通过分类聚类之后去除孤点的方式降低噪音,当然,并不是所有的孤点数据都需要去除;对没用的数据,需要分类、识别出数据的重要程度及优先级级别,将级别最低最不重要的数据摈弃在数据分析之外;对非稳态数据,则需要进行数据信号处理,如采用小波分析法,将频率信号转换成不同的频带,从而增加时间-频率的分辨率,去除噪音,实现特征提取;对于高频采集的数据,必要时,可根据其数据特征进行抽样压缩,如,平稳的数据段仅抽样存储几条数据,从而压缩了数据量,又不影响数据分析、挖掘结果。

11.3.3   数据存储层

        工业领域中,海量、实时、高并发、格式多样的数据在源源不断地产生,并通过工具采集到大数据分析平台的存储系统中,以作为数据被充分分析、挖掘和利用的基础,这就要求大数据平台的存储系统能够实现高效、低成本的存储,其底层硬件架构和文件系统在性价比上要大大高于传统技术,提供高容错、高扩展、高可靠的分布式存储服务,及清晰的数据模型和可追溯的元数据管理,能满足结构化、半结构化和非结构化的数据类型存储需求。

11.3.4   计算层

       海量数据的处理、分析,需要在大型集群上进行分布式并行计算,才有可能在用户可接受的时间内及时返回结果,为使工业企业沉淀、积累的多源海量数据产生其应有的价值,需要进行多维度关联分析、挖掘、评估、预测及优化,获取智能的、深入的、有价值的信息,并指导企业的生产、经营、管理和运维,实现多问题、多环节乃至全产业链的协同优化,实现真正面向用户需求的多维度分析与优化应用,解决针对用户需求的个性化与规模化生产的矛盾等,分析挖掘出海量数据中潜在的价值,为企业创造出更多的价值。

11.3.5   应用层

       在工业领域,随着数据的累积,大量数据中所蕴含的价值逐渐引起了各企业的重视,数据资产已成为企业的重要资产之一。大量数据的价值体现及其带来的洞察力除了需求预测和精准营销外,还包括个性化定制、网络化协同制造、制造业分享、智能制造、虚拟工厂、故障诊断与预测性维护、智能服务等。

       此外,大数据的应用场景还有很多,企业不可能也没必要一开始就全面铺开所有的应用,而应针对企业本身的业务需求,以及发展或转型中的痛点、难点问题,有选择有针对地开展大数据分析挖掘工作,优化企业运营,为企业创造出更多的应用价值。

11.3.6   展示层

       在工业大数据领域,各类基于大数据的应用结果需要采用直观的方法展示,以帮助企业快速洞察海量数据中隐藏的知识与商机,如用故障图、健康衰退曲线来表示设备的故障与健康变化趋势,还可辅以动态视图,如动态闪烁等;通过虚拟工厂实现对工厂生产的实时监控与管理等,可归纳为如下四类展现方式:

       (1)大数据实时组态工具。组态工具通过对接大数据平台,以图形化的方式将设备的数据按照更易于理解的方式进行展示。该工具可对画面采用可视化、交互式的方式进行搭建,而不需要进行编码开发。设计好的组态画面,用户可直观地获知设备的实时状态,了解是否有故障报警,还可对设备进行远程控制。

       (2)大规模地理空间数据展现。地理空间数据管理工具主要用于配合GPS坐标信息,将产生的地理数据与地图相结合进行展示,往往配合移动端进行数据采集。比如点检时如采用手机进行信号采集,则同时产生的地理坐标信息也将传到大数据平台,并在上面进行专门的地理数据管理,并与设备数据进行关联。

       (3)自助分析工具。报表工具通过表格的形式,将数据的关联关系直观地展现出来。报表的展示需要能够灵活方便地进行编辑,采用所见即所得的方式,降低报表制作的难度。同时,报表工具与主流的表格软件,比如Office的Excel具有类似的操作模式,使易用性得到较高的提升。

       (4)丰富的可视化图形库。大数据平台上提供了丰富的开源可视化组件,包括FusionCharts、HighChart、eCharts、D3等。这些组件不仅能够表现各种的图形,也提供了丰富的交互能力,特别是在超大规模的数据渲染能力上提供了较为出色的支撑。

11.4        信息技术架构典型案例

       【案例】 STYLEREF 1 \s11‑SEQ【案例分析】\* ARABIC \s 15智能工厂基于质量大数据的质量管理

西电宝鸡电气有限公司(简称“宝鸡电气”)是中国西电集团中低压开关与成套设备配电业务板块的核心企业,已逐步建成现代化配电系统设备生产体系,其目标是建设成为中国技术质量水平最高、中低压成套配电系统解决方案平台比肩国际先进企业、国内领先、世界一流的现代化企业。要达成此目标,需要紧跟工业4.0的步伐,引进新技术,大幅提升生产效率与产品质量。

       经分析,宝鸡电气12kV开关柜的断路器是影响质量的重要环节。该断路器生产线质量数据采集、质量检测的电子化、信息化程度不高;装配工艺环节如磨合、机械特性测试、工频耐压试验等测试环节问题较多,但公司并未记录与分析相关问题,更没有追溯问题原因并加以解决,导致质量问题反复出现,严重影响公司的生产效率和产品合格率,已成为公司亟待解决的重要问题。为此,公司决定采集相关环节数据,建设质量大数据分析系统进行质量分析,解决机械特性测试、工频耐压测试、磨合测试等环节出现的问题,并追溯质量问题来源。

系统首先采集发现问题最多的机械特性测试、工频耐压测试、磨合测试等工序的相关数据,然后根据质量分析的需要建设大数据平台,包括数据集成工具Sqoop、Kafka、Talend,数据存储及处理工具HDFS、HBase、Hive以及分布式计算Spark,大数据分析与建模工具(如分类聚类分析模型、关联分析模型、异常分析模型和趋势预测模型)以及可视化分析工具;通过数据集成工具将业务系统中的数据集成到大数据平台,通过大数据平台对数据进行存储、计算、模型构建和可视化分析应用构建。基于大数据平台,可进行质量分析应用的设计开发,该应用主要关注断路器产品的质量问题,包括各类质量指标的统计分析、质量问题定性分类、质量影响因素及其关联分析、质量问题追溯分析、质量异常反馈及质量变化趋势预测,构建质量知识库,包括质量问题分类、质量解决措施和专家意见。最后,将质量分析结果、各类质量指标进行可视化展示,如用报表展现各类质量指标(如二次配线问题统计表、零部件质量问题统计表等)、用直观的图表展示各类质量的相关统计指标(如一次交验合格率、不良品率等)。系统的总体架构如图11-10所示。


  图 STYLEREF 1 \s11‑SEQ图\* ARABIC \s 110智能工厂质量大数据分析系统总体架构图

该系统通过对装配质量问题进行数据分析,将工艺、工位操作、零部件负载的等影响产品质量的因素进行数值化,利用质量问题分类模型将质量数据进行质量的影响因素及其关联分析,从而定位该产品在装配过程中的质量问题产生源,使产品在各工位装配过程中减少产生问题的次数和发生概率,提高检验工位处理问题的效率和缩短问题分析处理的时间,并将产品质量问题分析结果中由于工艺设计或材料设计引起的产品质量问题诱因反馈给相关设计人员,促进制造过程质量闭环改进,降低产品返工次数和返工率,提高产品生产过程的一次通过率。该系统应用实施之后,12kV固封极柱式断路器生产线断路器产品不良品率有效降低了约10%,装配线生产效率提高了约10%。