K2研究院-田春华作者林亦霖校对王菁 编辑

智能运维大数据的终极宝典(附图表解析)

一、何为智能运维 ?

生产设备/装备是工业的重要生产工具,其可靠性、性能对工业生产有重大影响。随着工业大数据推进,设备的智能运维被定义为一个重要的应用领域。但何为智能运维?目前还没有一个明确的定义,但有不少提法,我们将其初略归纳为4种模式:

  • 智能决策,如预测性维修、故障诊断等PHM、运维运作优化;

  • 智能装备,将云端分析结果直接作用到端(如传感器偏差矫正);

  • 新业务模式,如共享备件库存等;

  • 结合其他新兴技术的新能力(如基于无人机的自动巡检、基于AR的协同运维)。

智能运维运维只所以很难给出一个明确定义,是因为运维业务涉及的维度复杂性。下图我们从业务用户、过程环节和业务目标3个维度去描述,不同维度组合决定了智能运维的内涵的不同。我们可以广义认为只要能够提高运维业务目标的措施都可以称为智能运维。

以用户角色为例,设备制造商与业主的动机不同。设备制造商主要从降低事故损失(包括直接损失、生产影响/产品形象等间接性损失)角度去看,落在预测性维修、提高维修效率(或降低MTTR)等方面。业主(生产企业)主要从保证生产连续性(或提高设备OEE)的角度去看。即使在同一个生产企业内部,生产运行部的关注和设备部也有微妙差别,生产运行部更加关心生产的稳定性和连续性,而设备部则关注设备延寿、设备状态维修和维修效率。

二、大数据平台能提供什么?

智能运维通常涉及到大量装备的高频传感数据(机器状态、工况等)以及丰富的上下文信息(环境、运维等),属于典型的工业大数据应用。除了大数据平台的共性需求之外(提供动态接入、质量在线处理、时序数据压缩与索引等数据存储,以及并行化计算功能),智能运维还有不少工业设备的特有需求。下面从行业数据模型、行业算法、行业知识库三个角度进行阐述。

行业数据模型:设备全生命周期档案

设备智能运维的一个前提就是设备的全生命周期档案,记录设备的过往今生以及不同维度的信息。这是大数据应该解决的基础问题。包括设备结构(BOM)、维修履历、故障记录、异常预警记录、工况、档案、基本信息等维度。

设备全生命周期档案,不仅仅是多个数据源Data Schema层面的关联,还包括业务语义层面的处理,包括编码间的映射关系(例如,设备编码规则改变前后的对映)、同义词(例如,风速在不同时期数据标准中的字段名可能不同)、字段名称相同但业务语义不同(以油气生产中的“产量”为例,井下产量、井口产量、集输产量等不同口径的“产量”,因为测量方式、测量环境、测量标准不同存在很大差别)。大数据平台在提供行业建模工具时候一定要注意业务语义层面的需求。

以设备档案数据模型为基础,大数据平台提供基于图搜索技术的语义查询模型,以友好的方式支撑设备管理分析。以风机为例,当叶片断裂事故发生后,整机制造商运维主管想查看确认是否为叶片批次问题(即和当前风机使用同一叶片厂商的风机最近机舱加速度是否正常?),有了图语义模型的支持,后台可以自动跨越多个表格进行查询(而不需要用户/应用开发者写复杂的表间关联语句),这样将大大降低应用开发的工作量。

行业数据模型:工业知识图谱

在设备运维中,除了设备档案数据,通常还存在大量的故障案例、设备维修过程记录等非结构数据。这些记录中蕴含着大量的故障征兆、排查方法等实操经验,对后续的运维有很大指导和借鉴作用。通用的文本分析,由于缺乏行业专有名词(专业术语、厂商、产品型号、量纲等)、语境上下文(包括典型工况描述、故障现象等),分析效果欠佳。这就需要构建特定领域的行业知识图谱(即工业知识图谱),并将工业知识图谱与结构化数据图语义模型融合,实现更加灵活的查询

行业分析算法:已有分析资产(Matlab/Python/R)的并行化

大数据平台也需要支持已有分析模型的快速成熟。在大数据兴起之前,企业就开发了不少基于Matlab/Python/R语言的单机分析模型,只不过缺乏大量数据验证。经典的大数据并行化系统(Map-reduce)要求重新编写分析程序,但通用平台算法库(如MLib/Mahout)对工业分析的分析函数(比如,信号处理、系统辨识)支持有限。而在很多工业分析场景中,记录间存在着时序关系,并行化分组通常是有明确业务语义的字段(比如,风功率曲线计算是按照风机、月份进行并行化),而不是记录条数。因此,工业大数据平台应该支持非侵入式的Matlab/Python/R并行化,用户只需指定可并行化的数据字段,对单机分析程序做简单适配之后,就可以直接甩到大数据平台上做全量并行化,通过大数据的迭代,去伪存真,探究海量数据后面的一般性规律,实现企业已有分析资产和实践经验的快速变现。

行业分析算法:工况特征库与时序分析算法库

在经典分析算法库(包括深度学习)和非结构化数据(文本、音频、图像/视频等)算法的基础上,提供设备故障和运行状态分析所需的特征库或算法库。

  • 针对工况时序数据,提供时序切割、时序分解、时序聚类、时序聚类、典型模式挖掘等共性分析算法。

  • 动力学系统分析所需的算法(系统辨识、ODE仿真等)。

针对典型工业单元(如电机、齿轮箱、反应釜等)的FTA(Fault Tree Analysis),包括典型故障类型、特征变量,以及故障的研判方法。例如,对高速旋转部件的振动分析算法库(时域、频域和时频分析)。

行业知识库:故障诊断/运维案例库

针对典型设备的故障诊断和运维,企业和社区通常存在着大量运维工单、经验总结报告、社区讨论等。基于工业知识图谱分析和行业专家的梳理,形成针对特定领域的案例库,并形成半结构化的维度标签,方便检索和语义推理。

行业知识库:诊断模版库

针对典型设备的故障诊断,形成诊断模板,并与设备资产档案字段关联。在应用开发时,只需要数据实例化,就有了60~70%的成熟度,后面只需要根据实际数据和特定控制逻辑做一定定制化。

三、智能运维大数据分析的CRAB规划方法

正如第一节讨论,不同行业、不同设备、不同角色企业的智能运维差异很大,在智能运维的实践中,我们初步归纳出CRAB四部法。规划上,运维大数据相对质量大数据要轻松一些,因为设备运维与生产工艺的耦合度没有质量分析那么大,且设备通常有很多共性基础单元构成。

业务上下文(Context)理解

业务上下文包括如下四个方面。缺乏这些基本面的把控,智能运维大数据分析很容易与业务脱节。

维度

内容

行业生态

产业价值链(核心价值与挑战在何处?不同角色的核心能力是什么)

设备对象特点

设备是定制化设备还是大量类似设备

设备的数字化程度

当前运维体系

了解当前的运维职责划分、成本结构

当前设备的主要故障模式与诊断经验

业务痛点与目标

当前的业务挑战和改进目标

主导企业的资源能力(Resource)分析

主要从如下三个方面进行分析:

(1)主导企业在产业链中的独到能力:决定了智能运维的侧重点在什么地方。

不同设备特征(机理/结构复杂度、失效模式、数字化程度)、不同角色的知识/信息资源程度也会决定智能运维的着力点。对于比如风力发电机、航空发动机等主力生产设备,并且生产过程也是透明的,则设备制造商可以掌握大量类似设备的数据,从而在数据技术和知识基础较业主有很大优势。但对鼓风机、机床等装备,只是生产制造设备中的一环,设备制造商即使可以掌握设备自身的状态信息,但对整个生产的工况、生产控制、工艺以及其他相关设备状态缺乏了解,设备故障预警对设备制造商来说有一定的限制。因此,在进行设备运维业务规划时候,要充分了解业务上下文(Context),决定了智能运维的侧重点在什么地方。

(2)数据资产

在了解相关IT系统(SCADA、MRO等)基础上,还应该从CPS(Cyber-Physical System)思维的角度,去审思Cyber在多大程度上反映了Physical?在哪些地方有较大差距?这就需要

  • 逻辑层面的融合:在了解设备的数字化程度之上,将IT系统中的数据与设备动力学机理、控制逻辑、环境、工况、生产控制等信息融合起来,去看现实世界中的例外情形。比如,MRO订单中写的保养项在大多数情形下是否忠实执行(用明确的数据记录,但不一定真实);备件需求是否存在囤货行为(永远不会有明确的数据记录,但切实影响到了备件销售量的这个数字)。

  • 数据的场景化:在数据中重现所有业务场景,更直观地了解这些场景下数据的分布和走势。如下图所示,当风机重启或个别变桨PLC重启时,可以在数据中清楚地看出桨距角的初始化过程。

同时,也尽力去发现业务访谈中没有提到的“异常”场景。以下图为例,在早期业务访谈中,大家一直认为低风速下风机应该处于停机状态(桨距角在90度左右),但实际数据表明,低风速下风机也可能处于待机状态。这对于业务人员来说是默认的常识(但发生频度低),故而早期业务访谈中客户没有提及,若数据探索不够细致,这样的风险将传递给后续的建模环节。

  • 技术领域常识对数据能力的基本指导:在如下所示的P-F图,给出了在不同失效阶段,哪些表征量(红外、振动、油质、声波、温度等)是显著的。可以给大家一个基本面的判断,消除很多不必要的“幻想”。

source:https://production-technology.org/tag/probability-of-an-injury/

(3)行业经验与知识

对于不少问题,一线业务人员或行业专家已经有了相对清晰的认识,这时候没有必要走纯粹数据挖掘的思路。但大数据仍有很多价值,因为很多专家经验通常不够精确(模糊、歧义、不完备、多个逻辑间的冲突),大数据平台通过支持“大-小数据”迭代,快速支持行业经验在全量数据上的验证与精化。

针对典型的设备故障以及诊断的问题,大数据平台或数据分析案例库通常积累了很多故障模式、故障原因、故障因素/表征以及常用的诊断模版,但FMEA(Failure mode and effectsanalysis)、FTA(Failure Tree Analysis)经典方法对于细化一个具体设备的故障模式很有帮助。

针对典型的设备故障以及诊断的问题,大数据平台或数据分析案例库通常积累了很多故障模式、故障原因、故障因素/表征以及常用的诊断模版,但FMEA(Failure mode and effectsanalysis)、FTA(Failure Tree Analysis)经典方法对于细化一个具体设备的故障模式很有帮助。

业务模式与技术方案(Analysis)设计

主要包括如下3个方面。技术方案设计在前面质量大数据分析的文章中讨论过,这里不再赘述。

业务模式

如何运作智能运维业务、如何度量成功

技术方案设计

大数据平台设计、数据分析技术路线、应用设计

推进阶段

推进阶段

在业务模式设计上,要从业务应用场景的角度去思考智能运维的业务需求。例如,有很多设备运维过程,虽然实现了远程“监视“(而不是“监控”),但异常/故障判断仍然全部靠大量的人工,业务需求就是降低监视的人力工作量。该业务需求的技术方案从表面看起来是一套故障/异常自动研判系统(构建一个高精度的机器学习模型自动研判),但若深一点思考,就会发现很多关键生产中要求“零误判、零漏判”。此时,“辅助决策”是唯一的现实方式。再深入一层,“辅助决策“又可分为2种方式:

  • 机器学习模型研判供参考,人工终判;

  • 构建一个自动研判模型(机器学习+行业经验)实现对相当大比例样本的100%精度的自动研判,其余的样本留给人工去判断。在很多实时性强或人力消耗大的业务场景,这种方式通常更受欢迎。

在技术方案设计上,同样要考虑到应用场景的需求与限制。例如,“云+端”是个很好的提法,但要考虑网络延迟、数据安全、模型稳定性等现实限制。

执行路线图(Blueprint)

根据课题定位,进行关键技术攻关,从模型的精度、稳定性等维度快速评价工艺落地的可行性。对于技术可行的课题,选择合适的产品类型和地点,进行控制性实验,最后进行大规模的应用推广工作(以及对应的大数据应用开发)。在分析模型投入试点之前,最好能够跳出技术,回归到业务角度进行再“再思考”,至少回答以下3个问题:

  • 模型的应用场景:给谁用?对于预警/预测,提前量是多少?是否足够采取必要的干预动作?模型的漏报率、误报率对生产意味着什么?用户使用时倾向于的交互界面是什么(比如,在高空运维时,语音也许比触摸屏好)?

  • 模型所需输入的可获得性:在模型运行时,这些信息是否能够全部获得?

  • 模型的适用范围,以及例外情形处理策略:如果遇到未建模情形,如何处理?模型结果的Worst-case是什么?应对措施是什么?

四、总结

本文简要讨论了我们在应用KMX大数据平台实施智能运维项目中的部分经验与感想。和很多其他大数据应用一样,智能运维应从业务出发,将大数据技术融入到企业的运营与技术体系,融入的具体业务流程与环节。

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

理论深度学习知识库知识图谱智能运维
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

数据压缩技术

数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩包括有损压缩和无损压缩。在计算机科学和信息论中,数据压缩或者源编码是按照特定的编码机制用比未经编码少的数据位元(或者其它信息相关的单位)表示信息的过程。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

文本分析技术

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

暂无评论
暂无评论~