钟瑞麒 陈彦达 施钧耀作者

消除NLP中的刻板印象:程序员之于男性=家政人员之于女性?

随着人工智能的发展,自然语言处理技术已在翻译、情感分析等多个领域进步,逐渐提高相关应用的质量,并正在日益影响人们的社会生活。然而,科研人员发现在机器学习人类语言的同时,也习得了人类语言中隐藏的刻板印象。带有这样偏见的自动化算法如果被应用到实际生活中的话,很有可能扩大这种偏见,造成不良的社会后果。AI 科研群体非常关注这一问题,并在近几年来不断讨论、改进解决方案。这篇推送中笔者将会介绍两篇这一领域中的经典论文,借此希望可以让读者对于当前科研人员在消除算法刻板印象上的努力有一定的了解,也对 AI 和社会的关系带来一些思考。第一篇论文发现并消除了词嵌入中的社会偏见问题,第二篇论文发现并消除了视觉相关任务中使用结构预测模型中偏见放大的问题。

以下是笔者的观点和结论:

  1. 在用于训练人工智能的数据集中存在社会的已有偏见,这是普遍存在并需要大家关注、解决的问题。取决于不同应用,具体解决方案可能有所不同。

  2. 机器学习可以帮人们发现了原本大家以为在语库中不存在的偏见,而不会凭空创造偏见。

  3. 有时机器学习算法会放大已有的社会的偏见,值得警惕。

  4. 近期科研人员在推进算法公正/消除偏见方面做了颇多努力,相比几年前进展颇多;然而对于偏见如何产生的背后原理尚无定论,所以这个方向的科研还将继续。

论文 1:男人之于程序员相当于女人之于家政人员?消除词嵌入中的偏见 (Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings)

链接:https://arxiv.org/abs/1607.06520

摘要:盲目使用机器学习算法有很高的风险会放大训练数据中已有的偏见。词嵌入 - 一种在机器学习自然语言处理中流行的、用向量表示单词的方法 - 就很有可能带来这样的危险。我们发现即便是在谷歌新闻(这样正式的文体)上训练出的词嵌入都表现出了强到令人不安的性别刻板印象。广泛使用这样的词嵌入可能会放大这种偏见,因此这个问题值得我们关注。首先,从几何角度上来讲,性别偏见可以被一个(词嵌入所在向量空间的)方向所表示。其次,性别中立单词与定义中带有性别的单词线性可分。用这两个性质,我们提供了一种可以消除性别刻板印象的方法,例如「接待员」与「女性」的关联,而保留我们所希望的关联,例如「王后」和「女性」。我们定义了一种词嵌入中量化直接与非直接偏见的标准,并且开发了一个可以消除这类偏见的算法。在众包评估和标准数据集中,我们经验性地展示了我们的算法可以在显著降低性别偏见的同时保留很多它其他本来具有的性质,比如对相关概念的聚类和解决类比任务。我们提供的词嵌入可以被使用在各类任务中而不带有已有的社会偏见。

词嵌入 (word embeddings) 模型为一个个离散单词找到对应的实数向量,使得:1. 相近的词语对应相近的向量,比如「妈妈」和「母亲」作为同义词具有相近的实数向量。2. 可以通过向量的加减完成类比任务,比如:man - woman = king - queen (为方便格式排版,每个单词都是一个实数向量) - 对应常识中:男性之于女性(等于)国王之于王后。这个算法帮助更加有效的囊括了各个单词的含义,但同时也学到了我们不想要的性别偏见,比如 man - woman = computer programmer - homemaker。这有可能在应用中带来糟糕的社会后果:在一个假想的搜索应用中寻找和程序员相似的人的材料,算法可能会据此把男性排在女性之前。举个例子,一个程序员叫 Mary,另一个叫 John,他们作为程序员的专业水平一模一样;但是因为 John 这个名字更男性,算法有可能因此认为他的个人材料就更加接近程序员一点,导致 John 在之后和 Mary 的竞争中带有优势。然而,这并不公平,因为我们应该根据一个人的实际水平进行排序:把性别/名字直接作为排序依据显然是带有偏见的。

论文首先发现性别偏见几乎可以被一个(词嵌入所在向量空间的)方向 g 所表示;具体来说,所有与性别相关的关系,无论是定义上的还是偏见上的,如儿子之于女儿(定义),国王之于王后(定义)或棒球之于垒球(偏见)程序员之于家政人员(偏见),这些单词对应的向量的差都基本与 g 平行。据此,这篇论文量化地定义了两种偏见:1. 直接偏见:一个本应性别中性的词在 g 方向上的投影 2. 隐形偏见:两个词之间的相似度多大程度可以由性别 g 方向上的投影解释(比如」接待员「和「垒球」很相似,因为它们都在 g 方向上有很强的女性刻板印象)。文章提出的解决方案也很直截了当:对于本应性别中立(比如职业等)的词,直接把 g 分量减掉,留下与 g 垂直的部分;对于定义中不性别中立的词(如女皇、儿子)等,对每组只包括性别差异的词(如 {儿子,女儿},{父亲,母亲})取平均值再按比例加上本来在 g 上的投影(具体公式详见论文第 12 页 step 2a)。这样的算法可以消除大多数直接/间接偏见,但同时保持词嵌入可以做类比任务的性质。

笔者认为,在这篇论文发表之前,事实上并没有多少人会觉得在谷歌新闻这样正式的文体中存在多少性别偏见,而机器学习算法却发现了它。尤其有趣的是,浅层的共同出现数据(「co-occurence statistics」)并不能解释词嵌入中所有的偏见:」男性护士「这个词组出现频次要远大于「女性护士」,但依然词嵌入中「护士」依然带有很强的和女性的关联性。这样来看,机器学习算法其实帮助人们发现了本来大家以为在语库中不存在的偏见。另一方面,论文发现了 g 分量这一个和性别偏见有关的分量,但修复了这个问题并不代表词嵌入中的偏见消失了 - 这可能只是众多问题中的一部分,偏见有可能以其它非线性的方式出现:在 g 方向上没有偏见并不代表偏见不会以其他方式在词嵌入中存在。在理想情况下,我们应该从训练过程和数据中偏见产生的第一性出发 (first principle) 去消除偏见,而不是在训练完之后发现症状并解决症状,因为很有可能「治标不治本」(比如使用那些能解释为什么词嵌入向量加减能完成类比任务的模型来从理论上根本去除偏见)。

论文 2: 男性也喜欢购物:用语库层面的限制减少性别偏见的放大 (Men also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraint)

链接:https://arxiv.org/abs/1707.09457

摘要:语言文字越来越多地被用来定义各种各样丰富的视觉识别任务;这些任务的图片数据集一般从网上采集。在这些任务中研究者经常使用结构化预测模型 (structured prediction models),因为其可以很好的利用标签和图片的相关性;但这些模型却无意间增加了习得网络数据集中的社会性偏见的风险。在这篇论文中,我们主要研究了多标签物体分类 (multi-label object classification) 和视觉语义标注 (visual semantics labelling) 中的数据和模型。我们发现 a) 这些数据集中有非常显著的性别偏见 b) 在这个数据集上训练的模型会进一步放大这些偏见。举个例子,在训练数据集中做饭有 33%(absolute percentage) 更多可能和女性有关;而当训练好的模型在测试时,该差别得到了放大,高达 68%。我们提出了一种加入语库层面限制的方法来校正已有的结构化预测模型,并用拉格朗日松弛技术 (Lagrangian Relaxation) 对整个测试集一起进行预测。我们的算法表现相比改进前没有任何下降,但在多标签物体分类和视觉语义标注的两个问题上将偏见放大分别减少了 47.5% 和 40.5%。

视觉语义标注 (visual semantics labelling) 是指,给定一张图片,机器算法给出图片的描述「谁在哪里怎样干什么」(见图片)。比如第一张图中:一位 [女性](人物)在 [厨房](地点)手拿 [抹刀](工具),用 [炉灶](加热工具)热 [通心粉](食物);算法需要给出」[]」中的文字内容。然而这项任务中有两个潜在问题:1. 数据本身有一定性别偏见,比如三分之二的情况下正在做饭的是女性。(比如在下图中五分之三的做饭的人是女性)2. 算法可能会放大这种偏见;一个训练好的 Conditional Random Field(条件随机场)会预测 84% 的做饭的人是女性,放大了训练数据中三分之二的比例。(比如在下图中五分之四的算法预测是女性,尽管图四种正在烧饭的是男性)。

为解决这一问题,作者首先量化定义了数据中的偏见和算法对于偏见的放大。首先作者假设训练和测试概率分布相近。在以上做饭的例子,有 66% 的数据中是女性,而预测中 84% 的是女性,则数据中的偏见则被定义为 66%,算法偏见的放大量则是 84%-66%=28%。为解决这一问题,作者提出在对测试集进行预测的时候对所有数据一起进行预测,来保证测试集上性别的比例和训练集中的比例一样(因为已经假设了训练和测试的概率分布相同);这也就是文章标题中「语库层面限制」的意思。从技术细节上来说,作者将「保证测试集上性别比相同」这一条件作为线形约束加在预测过程中,并用拉格朗日松弛技术 (Lagrangian Relaxation) 进行线形优化(详见论文公式 3)。作者发现使用这个算法保证了偏见基本没有被放大,而且总体算法准确率也没有下降。

笔者认为,发现数据中的偏见并非难事,但是发现了算法会将其放大偏见、并提出了一种不伤害总体准确率的修改方案则在当时非常具有创新性,调整了大家对于算法偏见的理解:1. 算法虽然不会凭空创造偏见,但也不一定会保持训练集中的偏见;很有可能它会放大这种偏见。2. 消除算法偏见不一定会导致准确率下降。这篇论文也因此被评为 EMNLP2017 Best Paper。然而,「强行」保证在测试集上保持和训练集上同样的偏见这一做法并不一定能被广泛使用,因为现实生活中训练和测试集概率分布很有可能不同,而且在理想情况下算法应该只依据一张图片而不是同时考虑其他多个图片来给出预测。

结语:以上仅仅是 NLP Fairness 领域中众多优秀论文中的两篇,科研人员也在其他应用中作出了很多消除社会偏见的努力,比如机器翻译、自动作文评分系统等;性别偏见也只是诸多刻板印象中的一种,其他的刻板印象包括民族、宗教和地域等;另外,关于偏见如何产生、是否应该在一个应用中消除偏见、以及应该以什么样的方式消除偏见,学界现在都还尚无定论。诸多有关社会偏见的挑战依旧未被解决,这一领域的科研也将不断继续下去。

作者简介:钟瑞麒、陈彦达、施钧耀均为哥伦比亚大学计算机系本科生

理论自然语言处理人工智能伦理偏见算法
2
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

条件随机场技术

条件随机场(conditional random field,简称 CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 如同马尔可夫随机场,条件随机场为无向性之图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场当中,随机变量 Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链接式的架构,链接式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在有效率的算法可供演算。 条件随机场跟隐马尔可夫模型常被一起提及,条件随机场对于输入和输出的机率分布,没有如隐马尔可夫模型那般强烈的假设存在。 线性链条件随机场应用于标注问题是由Lafferty等人与2001年提出的。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

暂无评论
暂无评论~