江泽斌、韦振琛、钱天培编译

人工智能的圣杯:关于可解释AI(XAI)的一切

在过去十年间,无数个人工智能解决方案在各大企业得到部署。

智能受众评测系统、智能财务合规系统、智能人员招聘系统,不一而足。

这期间,在企业客户却也始终存在一种怀疑态度:AI系统做出的产品部署是否真的值得被信赖呢?

在我看来,这也是企业人工智能要着力攻克的下一个难题。

错误的客户流失预测会使企业失去一个重要的客户,而错误的金融交易分类会使企业蒙受资金损失。实际上,客户对人工智能模型的精确度不是特别在意,他们更担心的是数据科学家们无法解释的一个问题:“我如何相信它做出的决策?”

AI系统--我如何信任它们?

在大多数支持AI的数字化转型中,客户喜欢让他们的系统拥有AI的能力以实现某些商业价值主张。另一方面,大多数数据科学家则追求使用最流行的算法(如DNN/GAINS/DRN等)。遗憾的是,他们都忘记了在决策制定过程中的问责机制和信任机制中存在着一个关键因素。

在现实生活中,每一个决策,无论是由机器还是低级员工又或是首席执行官做出的,为了达到提高整体的业务水平的目的,都要通过定期的审查,来解释他们的决定。这就产生了人工智能的新兴分支,称为“可解释的人工智能”(XAI)。

什么是可解释的AI(XAI)?

XAI是人工智能的一个新兴分支,用于解释人工智能所做出的每一个决策背后的逻辑。下图是对一个完整AI决策流程的简单描述。

除了对上述问题提供解决方案之外,XAI还具有更深层的业务优势,例如:

  • 改善AI模型的性能。因为XAI的解释有助于找到数据和特征行为中的问题。

  • 更好的决策部署。因为XAI的解释为中间人提供了额外的信息和信心,使其可以可以明智而果断地行动。

  • 提供一种控制感。因为AI系统的所有者清楚地知道其AI系统行为和边界的杠杆。

  • 提供一种安全感。因为每一个决定都需要通过安全指南,且对违规行为还会发出警告。

  • 与利益相关者建立信任关系。他们可以清晰看到每一个决策背后的逻辑推理。

  • 可监控由于训练数据偏差导致的道德问题和违规。

  • 提供更好的机制来遵循组织内的问责要求,以进行审计和其他目的。

  • 更好地遵守监管要求(比如《通用数据保护条例》GDPR),其中要求一个系统必须具有“解释权”。

AI系统部署中的角色

要实现可解释AI,我认为关键不在于工具和技术,而在于人类在这些人工智能系统中所扮演的角色。从广义上讲,我们可以用三个方面定义他们:

训练者--训练系统达到预期的功能行为

解释者-解释系统做出的决定

维护者-维持AI系统对业务KPI的效用

训练者

客户语言训练师

*教AI系统体会言外之意,例如检测讽刺

智能机器交互建模师

*学会员工行为,例如,一个AI系统可以从会计行为中学习如何自动匹配支出款项和发票。

*世界观训练师

使AI系统拥有全球化的观点。当做决定时不同文化的观点都要被考虑,比如判断一个算法是否“公平”

解释者

*背景设计师

根据业务背景,正在处理的任务,或个人或专业或文化等因素的不同设计更好的决策。

*透明度分析师

对使用不同类型的AI算法的不透明度(以及对业务的相应影响)进行分类,并对该信息库存进行维护

*AI落地策略

决定是否对特定的应用部署AI系统(或是应用传统的规则引擎和脚本)

维护者

*自动化伦理分析师

评估智能机器的非经济影响,包括正面和负面的

*自动化经济分析师

评估性能不良机器的成本

*机器关系管理者

"推广"在业务中表现良好的算法,并“降级”性能较差的算法

对于训练者和维护者的角色来说,他们有大量的工具可以使用。但对解释者来说,情况就不那么乐观了。人工智能/机器学习算法在本质上是著名的黑箱理论的一种,因为它的基于训练数据的大量非线性性质的权重和偏差的学习机制。因此,解释者的任务变得异常艰难。

XAI--关键维度

XAI有三个关键维度:合理的,可追踪的,可理解的。

合理的AI:能够理解每个预测背后的推理。

可追踪的AI:追踪预测过程的能力,可从数学算法的逻辑到数据的本质。

可理解的AI:完全理解做出AI决策所基于的模型。

XAI-设计原则

将XAI从概念转化为部署AI解决方案的8个原则如下

设计

一个着眼于社会影响力的AI

定义

数据集的出处,使用和保护标准

测试

系统发布前要进行全面测试

使用

使用透明

监控

发布后要严格监控

培训

工作能力培训和再培训

保护

隐私数据

构建

审计算法的工具和标准

XAI-主要技巧

XAI有两个主要技巧:

已知模型技巧:在这里有两类技巧。第一类技巧旨在解释现有的ML算法,第二类技巧则旨在研究新的白盒模型,以获得完全解释的能力。

未知模型技巧:通过入侵操作模型而在操作模型之外工作。一种称为LIME的技术主要用于估计决策的局部边界。

我在过去的经历中广泛使用了LIME库,加上自然语言生成技术,为维护者和操作者进行了叙述。

下面给出了当下算法精确度和可解释性的关系图

XAI的未来:

XAI领域有很好的发展前景,可以帮助企业解决AI的不足。例如:

精确的模型:XAI可同时支持维护者和训练者改进他们的模型,并使其持续下去。

值得信赖的模型:当XAI使得AI内部工作透明化时,XAI将有助于建立企业和其他监管行业的信心。

自然语言解释:XAI将通过自然语言(语音或文本)来解释它的决定,而不是通过分析表或复杂的仪表盘。这会要求自然语言解释与XAI的启发式探索结合起来使用。

对抗性使用(滥用):XIA的LIME技术和深度学习的GAIN技术,可以用于在外部破译给定的AI模型。这将导致组织需要使用政策和法规以及多层安全措施来保护其AI模型。

与机器协作:XAI将建立起信任的桥梁,使人类能够在方方面面中适应并习惯与机器智能一起工作。

相关报道:

https://www.kdnuggets.com/2018/10/enterprise-explainable-ai.html

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业数据科学自然语言生成深度学习机器学习XAI
21
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规则引擎技术

与基于规则的专家系统(rule-based expert system)涵义类似,通常是依据设定好的规则作出决策的引擎。在计算机科学中,基于规则的系统被用作存储和操纵知识的一种方式,以有用的方式解释信息, 它们经常用于人工智能应用和研究。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

推荐文章
有点溜