Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

实在智能创始人、CEO孙林君:数字员工——AI在RPA领域的应用与落地

9 月 3 日,在 2022 WAIC AI 开发者日上,实在智能创始人、CEO 孙林君发表主题演讲《数字员工——AI 在 RPA 领域的应用与落地》,详细介绍了 AI 加持的 RPA 技术近年来的发展,以及实在智能在数字员工方向的探索和应用。

以下为孙林君的演讲内容,机器之心进行了不改变原意的编辑、整理:

大家好,非常荣幸能够来到这个场合跟大家做分享,我今天带来的话题是《数字员工——AI 在 RPA 领域的应用与落地》。

AI 是一种通用的智能化技术,但过去在泛行业领域的发展遇到了一些问题,很难有大幅突破。我们现在更关注 AI 与垂直行业结合带来的化学反应。坦白讲,大家原本对 AI 技术抱有很高的预期,现在已变为实实在在的落地,我们更希望看到 AI 在真实行业中发挥作用。

什么是数字员工?数字员工就是机器能够代替人去做一些重复繁琐的工作,辅助人做决策。在未来的几十年,中国处于人口老龄化的阶段,适龄的劳动人口在减少,劳动力成本进一步增加,同时 GDP 要持续增长,这种情况下我们的劳动力缺口是比较大的,数字员工的出现将在很大程度上弥补劳动力缺口。

实在智能创立于 2018 年 7 月,到现在已有 4 年时间。我们在 RPA 领域融合 AI 技术,打造了各种各样的数字员工。实在智能先后经历了 6 轮融资,有超过 60% 的同事是科研人员,员工规模近 400 人,目前已掌握 120 项自主知识产权,申请专利数超过 40 项,近 20 项是实授专利,居行业第一。

RPA 全称叫机器人流程自动化(Robotic Process Automation)。举个简单的例子,工厂需要很多的自动化操作,机械臂可以很精准地完成一些规则化、重复的劳动。除了工厂,办公场景下自动化也有非常大的空间,智能化的出现让该领域得到了长足的发展。

在办公场景下,很多白领的日常工作也包含很多琐碎的工作,比如在财务、运营、法务、客服等很多职能场景中,一些工作是重复且可被替代的。但通过自动化的技术,就能用软件把人的操作录制或者模拟出来,机器就可以模拟人的操作进行工作,准确率高少出错。这项技术已经出现了很久,大约 15 年前,美国就在很多大型科技企业中应用,到了今天,国内已经有非常多的 RPA 公司涌现出来,包括传统的 RPA 以及和 AI 结合的 RPA(IPA)。我们是一个典型的与 AI 技术结合的 RPA 公司,最近几年的长足发展也与 AI 紧密相关。自动化技术和 AI 技术融合到一起才是未来数字员工的真正形态。

RPA 最开始只能做最简单的重复工作。如果机器想真正帮助白领高效工作,就要有很多工业化的设计。传统 RPA 的设计器里都是组件化的东西,拼装就可以完成,这样不用写代码,用户只需要关注业务逻辑就可以了。这种传统方法实现成本低,门槛也比较低,对用户来讲也比较友好。

随着人工智能的兴起和发展,我们也发现传统 RPA 里其实有很多地方是可以和 AI 进行结合的,例如和语音技术、OCR 结合,这些是简单的加法。另一方面,RPA 技术本身存在一些瓶颈,例如我们要控制各种各样的软件,首先要识别这些软件里的东西,但是在识别上,我们是强依赖于操作系统底层的。这种情况使用传统技术就面临很多瓶颈,而 RPA 技术与 AI 结合可以获得较大突破。行业天花板被推升以后,与 AI 结合的 RPA 技术可以真正泛化到所有行业的软件上,并成为普适性的自动化技术。

另外与 AI 结合后,数字员工的能力会实现从感知到认知的飞跃。感知能力就是各种识别、交互技术,认知能力就是能够结合大量数据做出推断。只有在认知层面将 AI 与 RPA 技术结合才能构建真正的数字员工。规则化的工作在我们日常场景里大概只占 20%-30% 的工作量,但如果 RPA 可以在认知层面代替人们完成非创造性工作,那么渗透率就可以达到 90%,所以数字员工未来的发展空间还是非常巨大的。

RPA 本身有一些能力上的限制,我们要把它变成 IPA,结合 AI,好比人的眼耳口鼻和大脑,能够对话、理解、观察和思考,这才是真正的数字员工。

我们回到本源的问题,RPA 能够代替人控制所有的软件,去完成规则化的工作,其中有两个能力最关键:第一个是软件的控制能力。通过操作系统底层去控制软件的时候,我们要知道 RPA 的接口能力,或者说要识别到每一个要素,这取决于操作系统底层的开放性。现在主流的做法是结合计算机视觉来提升 RPA 的能力,让 RPA 能够对所有的软件都适配,这就涉及非常多的技术挑战;第二个关键能力是信息提取能力。我们知道,现实世界中的信息并非都是结构化的,往往是隐藏在一段文本里,或是不同介质的表格里。我们要把这些信息抽取出来,比如甲乙方是谁,他们之间是什么样的关系,就离不开大量的信息提取技术。这和自然语言处理和计算机视觉都有关系。

更强大的软件控制能力

我们先看一下软件控制能力。屏幕背后也是一个世界,所有的软件都在里面。我们要知道画面上到底有什么样的元素或者物体,我能够对它做什么——先解决识别问题,再解决操作问题。通过操作系统底层解决识别问题时,我们会发现各种各样的软件是没有办法识别的,有时识别出来的就是一个大的框,有时是多个细粒度的元素粘连在一起,这样就无法进行软件操作。例如菜单中可能包含多个级别的小菜单,如果不能做到细粒度的准确识别,就无从谈起对软件的完美操控。

因此,我们希望开发出的工具普适性是非常强的,而不是只能给若干类软件做适配。而且软件会升级,技术架构会变更,这种情况下传统的 RPA 很难做到完美适配。现在很多 RPA 公司受限于技术的瓶颈,会被局限在某一个行业里。所以我们希望我们的 RPA 产品能够变成通用化的产品,变成真正自动化的工具。

另一方面,环境的影响也非常大。在不同的操作系统下,不同的软件组合情况,面临的拾取和识别问题也是各种各样的。

此外,在操作方式上,如果 RPA 技术只能通过写脚本的方式实现,那么它依然是非常小众的,只有程序员能够使用,这距离办公环境下「人人可用」的目标还有非常大的距离。

那么我们就要思考:如何能让用户非常简单地使用上 RPA 技术。例如当操作系统底层的识别不行的时候,很多工作都要依赖计算机视觉的方法,但要使用不同的组件。这对用户来讲,成本非常高。于是我们考虑把这两种技术融合到一起,以实现一种对用户来讲非常自然的过程——即用户不需要考虑什么时候使用计算机视觉,什么时候借助操作系统底层。这里就要解决非常多的技术难点。

首先是要解决精度问题。无论是多么细微的目标,或是多么复杂的目标,我们都要识别出来。如果我们想把使用门槛降到最低,那就要把不同的技术整合在一起。在速度方面,用计算机视觉的方式识别,效率天然会比底层要低一些。那么如何能够让用户有一致的体验呢?那就要在不损失很多准确率的前提下把模型变得很小,以便于在 CPU 的环境上稳定运行,这样能节省掉很多硬件资源。因为用户不会为了使用 RPA 产品单独采购 GPU(图形处理器)。

我们知道在软件层面,特别是涉及到计算机视觉时,界面的 DPI(图像分辨率)是不一样的。假设我在一台电脑上设计了一个流程,现在要部署到 100 台电脑上,不同电脑的分辨率可能不一样,操作系统环境可能不一样,显示器的大小也可能不一样。我们要解决的问题是在这些差别的情况下保证软件的稳定运行,替换分辨率也能保持一致。在界面大小上,当我们把一个软件界面进行拖拽的时候,界面会发生形变,这种情况下我们还要能找到操作的元素,这就涉及到形变重识别的问题。

面对这么多复杂的挑战,我们在业界首先提出了「融合拾取」的概念,并将这一技术实现出来。仅围绕提升软件控制能力就有十几项的难点,我们都申请了相应的专利来解决。现在我们再拆解一下,看看其中的具体难点。

下图是一个融合拾取运行的情况,画面上有很多类软件,包括网页、CS 架构的软件、还有操作系统原生的画面。在这种情况下,传统的 RPA 要用不同的组件来控制它,而且效率是非常不一样的,使用 CV 方法的效率就会很低。而我们实现的融合拾取方法可以在四种应用之间无缝切换,体验一致。对于办公环境里复杂的要求,融合拾取技术可以做到非常完美的控制。

实在 RPA 的融合拾取能力,可实现同屏多对象无缝切换拾取

这里有几个比较大的挑战,第一个是如何去适配各种各样的软件。我们知道软件的种类特别多,在不同的设计规范下,识别层面怎么实现通用性呢?我们经历了若干个阶段,从多模型到单模型到后来极致效率的单模型 2.0 阶段,我们在耗时层面、召回层面做了很多工作,一步步发展成现在相对比较通用的识别技术。

第二个要解决的是成本问题。我们在不能提供 GPU 环境的情况下,想把模型变小,这就用到了剪枝、蒸馏、量化等方案把模型构建出来。对于计算量不能太大的情况,我们也设立了元素相似度的色彩空间映射方法来降低计算量,在算力层面尽量把技术做到极致。

还有一块是跨分辨率、画面变化与重叠的情况,为了能够识别出原来识别的对象,我们的把 CV 领域行人重识别的概念引入进来,采用基于 ReID 的技术并做了大量优化,最终取得了非常好的效果。对拾取层面来说,我们要把界面的布局做相应拆解(涉及图像语义理解),然后做检测,最后再做匹配。每一个环节都有相关的技术在发挥作用,其中的挑战来源于多个方面:准确度、稳定性、唯一性。这些是需要持续打磨的,是一个与技术强结合的问题。

RPA 的瓶颈还远不止这些。例如在运行的稳定性方面,软件环境里有时会出现弹窗,而配置流程时没有预见到这个情况,流程可能就会被卡住,这种情况下我们需要系统能够自动识别到弹出了一个非常规的窗口,然后把它关掉,这样就有了辅助流程的概念。并且当按钮背后的 ID 发生变化时,或者说颜色发生了变化,系统还能以最大概率把它找出来,让流程运行下去,这个问题也要通过多种算法来解决。去年我们联合机器之心针对这个问题做了一个评测,在 360 软件库里随机抽取了一些软件,面向多个指标进行评测,结果表明我们在这项技术上是遥遥领先的。

机器之心行业评测数据总表:实在智能位列第一

更强大的信息提取能力

下面我们来看一下信息提取能力。日常工作中我们经常要汇总报表,把 A 系统的信息下载下来处理之后录入到 B 系统(例如财务的报税),这需要大量的信息提取以及加工处理再操作软件去完成,这是一个非常重要的工作。这里面有一个概念是 IDP——IDP 是智能文档处理(Intelligent Document Processing),它是集信息提取和信息处理等能力的 AI 产品,它每一项细粒度的能力可以在 RPA 里作为一个组件,与自动化的部分拼装起来,完成各种各样的工作。

在 IDP 领域里,常见的任务有识别各种格式、各种介质的文档,对比不同格式的文件,抽取合同中的主体(包括甲乙方信息、订单编号以及约定内容),特别是表格里的信息也要抽取出来,如果抽取的信息有问题,后面还要做自动的校对,有些还要根据业务逻辑做校正,这里面应用了大量相应的技术,包括 OCR、NLP 中的长短实体抽取等。

即使是看起来非常简单的文档,比对和审核也要用到非常多的智能化技术,比如对页眉页脚的识别、对表格区域的识别和还原、对分栏区的处理,其实都需要特定的技术,而不是一个通用的识别就能做好的,其中每一项都要做得非常细致,提高准确率。在合同对比或者财务、法务的工作中,这是非常常见的工作,比如我们在某一个地方做了一点点修改,修改前后的文档到底有什么差别;或者在不同的文档处理阶段,比如在签订合同时识别出合同风险,并编辑其中的内容,这都跟 IDP 的相关技术有关。例如图片介质的信息怎么跟电子文档的信息对比,其中包含非常多的细节。

RPA 还需要有更强大的信息提取能力,包括表格识别等。例如在电商领域有各种商品的类别和型号,通过拍照片就可以把里面的信息提取出来。OCR、NLP 等原子化能力对于数字员工来讲非常重要,可以变成设计器里的组件,帮助我们快速拼装出不同能力的机器人。

基于前面的讨论,我们实在智能的产品矩阵如下图所示,左侧是 RPA 产品四件套,我们有一个使用起来非常方便的低门槛设计器,设计出来的东西运行在机器人上,当有很多机器人的时候,就用一个控制器去调度、分配任务,在有很多数据的情况下,我们可以通过云脑训练出决策的模型,这样可以达到第四阶段——帮助人进行决策。另外我们有 AI 的产品矩阵,这个产品矩阵以 RPA 为底座,就可以构造出各种各样实用的数字员工。

应用案例

下面我介绍两个应用案例:一个是我们和银行合作的智能审单案例。这家客户有三四百名员工,他们负责审核大型企业的资金流水、合同以及资质证照等相关事物,最后去给客户做授信,但授信额度是通过人的经验并结合一些规则做出的判断。在这种情况下,我们通过 IDP+RPA 的场景化能力帮他们做信息审核、提取、比对,最终帮他们完成了智能审单。

第二个客户是一个电商头部品牌客户,我们运用实在 RPA 技术把对于该客户的评论从多个平台里汇总出来,并通过智能决策的平台训练出模型,挖掘出里面隐藏的差评,通过差评分析反向对营销作出进一步的决策。实际上这是一个结合云脑和 RPA 做的智能评论分析场景。

对于一个企业来讲,他们在接触自动化的时候都是从单点开始的,但一旦用上自动化的技术后,从人的天性来讲是不愿意再退回到手工时代的。因此单点的自动化和智能化就会逐步过渡成部门级别的解决方案,再下一个层级就是整个公司级别的。如此推动,企业的数字化转型以及超自动化的蓝图就会逐步形成,整个组织的生产流程也会因为自动化和智能化的加持,发生本质性变化。

基于前面的讨论,我们可以看到 RPA 已经不是一个传统的只能做规则化事情的技术了,我们更看好的是其与人工智能技术结合的应用与落地。我们知道人工智能的应用与落地,本质上是依赖于数据的,而 RPA 让数据的获取成本变得非常低,这种情况下再结合自动化,未来的空间是非常广阔的。在使用门槛、拾取能力、稳定性、实施效率和性能方面,AI 都会发挥很大的作用,我们希望通过 AI 技术的加持,让 RPA 成为一项普适性技术。

从大势上看,数字员工会随着人工智能未来的落地逐步渗透到千行百业,我们也对这个领域非常看好,将持续通过智能化技术的创新和应用来赋能和改造这个行业。以上是我的分享,谢谢大家。

产业WAIC
暂无评论
暂无评论~