工业知识沉淀,看起来很美好,但其实…

美国管理学家德鲁克在《后资本主义社会》中指出,人类社会正在进入知识社会。

无论是多年前出台的《国家信息化发展战略(2006-2020)》,还是近两年关于数字经济的定义,人们都强调了数字化转型中知识传承与共享的意义。

工业领域富含研发、工艺、装配、业务流程、供应链、员工知识、管理等各类知识。工业互联网的核心,正是面向加速变化的市场和日益个性化的需求,基于大数据与人工智能技术,将工业的技术、经验、最佳实践等工业知识实现轻量级软件化,在更大范围、更宽领域、更深层次构建出一个知识发掘、重构、传播、复用的新体系,带来全新的效率价值。

蓝图美好,但,知易行难。

如果不曾亲身体验,你可能很难理解,从零开始,从一份现场专工的判断经验到一个可以现场运行的工业APP,简单的“知识沉淀”四个字里会有多少挫折与迷茫。

且从一个历时近18个月的火电行业知识沉淀案例说起。

 01

来之不易的火电行业试点 

与电力行业的第一次亲密接触,要回溯到昆仑数据成立之初在风电行业小试牛刀。在清洁能源备受追捧的今天,火电也仍然占据了国内供电领域的第一份额,我们总想着做点什么。

燃料价格上升,环保压力增加运行成本,新能源全额上网挤占电量,间歇性能源增加的造成的电网调度难度大等等,火电面临着日趋严重的市场竞争压力。在工艺系统没有突破性进展的情况下,数字化、智能化理应有发挥的一席之地。要知道,整体电力行业相较于我国大部分工业产业而言,已经相当先进了。

从哪里开始着手呢?从哪个业务场景切入呢?我们到访过很多个一线的火电厂,很多人对这件需要大量精力投入却看不清产出的事情,表达了十动然拒;我们也拜访了相关行业的资深专家,探讨可行性,专家表示十分看好、有机会,但成功几率不明。

是啊,数据本身测不测的准,留没留的全,都存在未知,更别说火电整体运行过程本身就充满了不确定变化,老专工到了新厂子都得摸一摸设备的“脾性”,而我们呢,怎么从不甚准确的数据中学习出准确的建议?

有的人,因为看见,所以相信;有的人,因为相信,所以看见。 

于是,寻到愿意配合又有条件能配合的电厂,作为项目试点的合作伙伴,成了这个小团队前期最大的困难。从冬天到夏天,项目组由华北辗转华南,最后终于跨越大半个中国,选定了珠三角地区的某火电厂。

02

敬畏专业才能真正看清问题

有了愿意配合的电厂,大家有了共同的目标,第一步从哪里开始呢?先从历史数据找找灵感吧,不久,“磨煤机堵磨”这个关键词浮出水面。

磨煤机是制粉系统的关键设备,火力发电厂重要辅机,运行状态直接影响锅炉燃烧的稳定性,其故障是火力发电机组非计划停运的重要因素之一。而且磨煤机是耗能大户,耗电量占厂用电的20%左右,其经济运行是发电厂节能降耗重要途径之一,其运行工况也会直接影响锅炉燃烧的经济性。

目前电厂处理设备故障主要依靠DCS系统,通过监盘人员24小时对设备运行状态进行监控、调整并对设备故障进行预警。系统只有基于阈值的简单规则告警,对是否堵磨,还是依赖运行人员的经验,告警的精确性及及时性都不尽如人意,一旦发生事故就只能停产。 

是不是把DCS升个级就行了?很多老旧的设备或者运行中的DCS系统改造工程量太大,为了一些小小的改进就停产大技改,几乎不可能,且改造结果仍是未知。要知道,火电厂的盈利空间也在被逐步挤压。 

如果运用数据分析,找出磨煤机堵磨的征兆,就能对磨煤机堵磨故障进行提前预警,辅助监盘人员提前干预,优化运行方式。

至少,理论上,可行。 

 03

工况复杂、数据不准,机器学习向谁学习?

模型的准确度离不开海量的数据训练,本身工业行业的数据来源和制式就相当复杂,运行机理的难度也各有千秋,这次情况显而更加困难。

首先,磨煤机工况非常复杂,影响因子多,温度、开机时间、疲劳状态、设备劣化、煤的质量等等都会影响运行状态; 

其次,数据测不准。磨煤机风煤比例是个黑盒问题,行业中普遍存在一次风量测量不准,测量值与实际值往往存在较大偏差的问题。运行人员凭感觉,把一次风压、风量调得过高或过低都容易造成不同部位的零部件损坏。而这种自动和手动操作过程的“干扰”变化很多,从数据中我们很难发现两次一模一样的操作。

在这种的情况下,机器学习应该向谁学习?反复考量后,倔强的项目组有了自己的主意,数据学不了,向监盘的运维专家学知识啊,他们平时是怎么判断磨煤机是否堵磨的呢? 

万分庆幸,电厂专家的配合度非常高。监控和判断是否堵磨,对他们来说,是个相当辛苦的过程。24小时眼不能停地监盘,发现一处异常值,就要来回翻阅近期其他相关多种数值的变化,做出判断。一台机组6台机器,对于一线的运维人员来说工作强度大,安全生产的压力也大。

现场专家列出了多种有可能出现堵磨的征兆,给出了大量的文字和故障描述。我们的小伙伴表示非常振奋,随即,陷入了绝望谷底的沉思。

比如有的专家规则是,“A不变,B缓慢上涨”,这一定性判断怎么翻译成定量算法代码问题?精确到什么速度算缓慢?上涨是从什么值到什么值?数值超过一丢丢,或者低于一丢丢,怎么算?何况,在我们过往的经验中,专家规则往往存在一定程度的不严谨,偶发的异常情况无法穷举,有遗漏,很难做成自动执行的软件系统。 

看起来,也没有更好的途径。项目组曾私下问过有经验的运维人员,如何把这些经验传给新人,他们想了一会说:这个,靠“悟”! 

于是我们的分析师开始了悟道之路,花了大量的时间完成征兆规则和数据的关联,并向专家反复求证,形成了核心指标体系,将定性的描述定量化,专家的经验终于被“悟”成了机器代码。三个月,一个像样的模型终于跑通了。 

 04 

落地部署 只是智能化的开端 

到了这一步,隐性知识终于显性化了,是不是可以写项目总结了?事实告诉我们,不能高兴得太早。比如,一个现场可用的预警模型,过于敏感或者过于迟钝都是不可取的;再比如,从数据中筛查出的专家无意识遗漏的额外异常征兆,是否纳入产品考量?

项目团队立下了“零误报”的小目标,和专家反复推敲,将模型的预警确定到了一个合适的灵敏度。现场专家们对最终结果表示超出预期,从堵磨风险指数、状态评估到操作建议,这个历经多番磨难的模型将成为一个得力的工具,真正有效地帮助他们的日常工作。

当然,产品上线后,还需要结合现场运行工况,算法不断优化和迭代的过程,这次,暂且略过不表。

回顾至此,我们不只是想鼓励广大从业者,知易行难,却仍要知难而上。 

划重点!!! 

定义一个合适的数据可解的问题至关重要; 

让机理和算法握手,是一个反复试错反复验证的过程; 

在这背后,大量数据处理工作往往耗时耗力却不为人知。

从信息化系统中做数据迁移和接入绝不是“拉一根网线”这么简单,原有系统导出的原始数据并不能直接用于模型训练,因此团队做了大量数据接入、预处理、数据结构化、数据标记等数据工程,同时,为分析模型创建了一个利于小规模快速迭代的运行环境。

在帮助专家经验形式化的过程中,我们历经了跨领域多个知识沉淀的全闭环,也将部分我们的经验(血泪史)形式化、服务化、产品化,以期帮助更多从业专家,将大量的技术原理、行业知识、基础工艺、模型工具,更高效、便捷的沉淀和复用。

2020年,经济下行压力的严峻挑战之下,修炼内功正当时。

(本文部分图片来源于网络,如有侵权请联系删除)

昆仑数据K2Data
昆仑数据K2Data

专注工业大数据领域的洞察、技术、实战。相信知识的力量,让更多工业人,感受数据之美。

产业数据迁移数据分析机器学习
1
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据迁移技术

数据迁移(又称分级存储管理,hierarchical storage management,hsm)是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的 数据按指定的策略自动迁移到磁带库(简称带库)等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一 级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~