Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

「算法有偏见,比人强就行?」其实影响很广泛!

一、披着人工智能外衣的伪科学

 在今年12月举办的清博盛典暨新媒体大数据AI峰会上,清华大学教授沈阳分享了这样一个观点:人类的能力正在逐步被机器所替代,每一个人被技术赋能之后,他都在自我的能力上更强大。对此他举了个例子,比如说我们可能越来越不需要察言观色的能力了,只需要带一个智能眼镜就可以看出来对方对你发言的这个好感度在上升还是在下降。甚至可以设想这样一种场景,未来的丈母娘见准女婿的时候,只用戴一个智能眼镜扫描准女婿的脸部皮肤就能判断他的健康指数,通过大数据自动分析这个小伙子在哪些美女帐号下点赞,就知道了这个小伙子在网络上所表现出来的品性如何。

尽管教授所描绘的未来场景带有玩笑成分,不过利用人工智能技术来识别面相的应用倒是真实存在的。无论是上海交通大学研究者对1856张人脸照片进行犯罪倾向分析,通过抓取眼内角宽度、鼻唇角角度、嘴角弧度等面部差别性特征,证明了卷积神经网络可以较准确地分类犯罪,或者是斯坦福大学的研究人员宣布他们对超过35000张人脸照片中人物的表情、动作和神态进行分析,建立了一种准确率相对比较高的性取向鉴别算法,这些研究成果一经公布都引起了业内很大争议。很多人认为,这只是披着人工智能外衣的伪科学和面相学,充满了偏见和歧视。

 除了AI面像识别应用充满偏见,搜索引擎也是体现算法偏见的重要领域。比如,在谷歌上搜“black girl”,第一屏有绝大部分都是色情图(后来谷歌把这个问题修复了);哈佛大学的计算机系教授拉谭雅•斯威尼发现,在搜索引擎上搜典型的黑人名字,搜索引擎会有超过80%的概率在搜索建议里提供“逮捕”“犯罪”等词汇,而没有种族特征的却只有不到30%。以及最近谷歌CEO“ 劈柴”在出席听证会时,就被要求解释为什么用谷歌搜索“白痴”时会出现特朗普的照片。归根结底,搜索引擎反应的并不是现实,而是它的使用者对现实的理解。

英国巴斯大学计算机系教授乔安娜•布莱森曾说过,“数学上没有所谓‘公平’的概念”,“偏见,只是机器从数据中拾取的规律而已。”就目前而言,机器是不具备体会情感或者故意施加偏见的能力的,为何算法会带有偏见,以及如何解决偏见,则是我们需要关心的问题。

二、为什么算法会带有偏见 

算法偏见的产生主要来源于“数据偏见”。如果输入的数据是错误的,那么AI算法的结果可能会有偏见。

此前我们在《一文了解AI时代的数据风险(后真相时代、算法囚徒和权力让渡)》中,指出过客观数据会因为这些原因而导致失真: 数据样本偏差带来的“以偏概全”、“脏数据”带来的污染、数据分析模型偏差带来的方向性错误、数据挖掘能力有限带来的“浅尝辄止”、数据解读的偏差。

算法偏见的分类有:

1、“交互偏见”是指用户由于自己与算法的交互方式而使算法产生的偏见。当机器被设置向周围环境学习时,它们不能决定要保留或者丢弃哪些数据,什么是对的,什么是错的。相反,它们只能使用提供给它们的数据——不论是好的、坏的,还是丑的,并在此基础上做出决策。微软曾经在Twitter上放了一个机器人Tay,这个机器人上线时间仅有一天就被微软下架了,原因是Tay在一天之内便受到用户的严重影响而出现了种族歧视或者偏激的言论。 

2、“潜意识偏见” 是指算法错误地把观念与种族和性别等因素联系起来。例如让人工智能识别较复杂的生活场景中的男女性别,研究者发现,男人被错认成女人的图片有一些共同点——都是站在厨房里、或者在做家务。

3、“选择偏见” 是指用于训练算法的数据被倾向性地用于表示一个群体或者分组,从而使该算法对这些群体有利,而代价是牺牲其他群体。以招聘为例,如果人工智能被训练成只识别男性的简历,那么女性求职者在申请过程中就很难成功。 

4、“数据驱动的偏见” 是指用来训练算法的原始数据已经存在偏见了。机器就像孩子一样:他们不会质疑所给出的数据,而只是寻找其中的模式。如果数据在一开始就被曲解,那么其输出的结果也将反映出这一点。 

5、“确认偏见” 这类似于数据驱动的偏见,偏向于那些先入为主的信息。它影响人们怎样收集信息,以及人们怎样解读信息。例如,如果自己觉得8月份出生的人比其他时候出生的更富有创造性,那就会偏向于寻找强化这种想法的数据。 

 三、如何解决算法带来的偏见问题 

1、为算法建立一个监管机制 

要消除人工智能潜在的歧视问题,第一步是打开算法“黑匣子”。目前,多个国家开始制定关于算法的基本原则。

2017年1月12日,美国计算机协会下属美国公共政策委员会发布文件,阐述了关于人工智能算法透明化和可责性七条原则。具体如下:

  • 公众对算法的了解,应该让公众了解自动决策的程度。

  • 错误决策的救济,对错误决策可以进行调查并予以纠正。

  • 责任认定,算法设计者而不是系统本身对基于此算法所做出的决策负责。

  • 解释,无论算法的逻辑构架多么复杂,都必须能够用人类语言进行解释。

  • 数据来源及可靠性,算法设计者应该对训练数据的来源及可靠性加以说明。

  • 可审查性,算法设计机构应记录模型、算法、数据和具体决策,以便在解决出现的问题或依法监管时有据可查。

  • 验证和测试,算法应用机构应采取可靠的技术手段对其算法的程序进行验证,以提高基于此算法所自动做出的决策的可信度。

由于包括技术、经济和社会等在内的很多因素,算法所作出的决策可能是不透明的或具有某种导向,算法偏见或歧视可能对公众产生危害,上述原则的确立是通过算法透明化及可追溯性,尽量减少潜在的风险及危害。 

美国公共政策委员会所发布的这七条原则是要求了行业的自律性,而欧盟则是直接对算法透明度进行立法明文规定了。今年5月通过的《通用数据保护条例》(GDRP),除了隐私问题外,着重规范了AI技术的透明性。该条例要求,但凡使用算法进行自动决策的公司,都必须公布其算法决策的逻辑。为了降低存在错误和偏差的风险,GDPR甚至要求算法开发者使用“适当的数学或统计程序”,即公司需要对自动决策中出现的偏见和歧视负责。

除了相关法律法规的制定,一些企业巨头也开始按照这些思路展开行动。例如谷歌开发的几个人工智能项目,程序员为机器学习增加了手动限制,使输出的信息更准确,可理解性更高;美国国防部高级研究计划局还资助了一项名为XAI(可解释的人工智能)的计划,旨在打开人工智能的 “黑匣子”,以保证用户更好地控制人工智能程序;IBM今年9月宣布将IBM Research研发的偏见检测工具AI Fairness 360 工具包开源,包括超过 30 个公平性指标,和 9 个偏差缓解算法,研究人员和开发者可将工具整合至自己的机器学习模型里,检测并减少可能产生的偏见和歧视。

2、把大数据与小数据结合,全数据思维代替大数据思维

除了通过打开算法 “黑匣子”,制定法规和政策来确保消除人工智能的偏见和歧视,在确保客观的数据来源方面也应该有所行动。

2009年在H1N1爆发几周前,谷歌的工程师们曾在Nature上发表了一篇论文,介绍了GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。但是,在随后的几年当中,谷歌这一预测却屡屡失灵,以至于在2014年美国《科学》期刊刊登的一篇题为《谷歌流感的寓言:大数据分析的陷阱》的文章称:很大一部分与疾控中心流感发生率数据相关的搜索词,并非是得流感的人引起的,而是由影响搜索模式和流感传播的第三个因素(季节)产生的。谷歌流感趋势的开发人员发现那些特定的搜索词是随时间而发生变化的,但这些搜索显然与病毒无关。比如,有的人可能仅仅是因为看了一部电影或者文章而去搜索流感。 

调查撰写这篇文章的哈佛大学、美国东北大学的几位学者认为,大数据的分析是很复杂的,但由于大数据的收集过程,很难保证有像传统小数据那样缜密,难免会出现失准的情况。最核心的问题是,大数据分析侧重相关性,导致在推导因果关系时容易出现误差。他们建议,应该把大数据与小数据相结合,以“全数据”思维取代“大数据”思维。

事实上,在互联网时代,通过在线民调形成针对用户个人的小数据,依然是了解用户偏好的捷径。事实证明,互联网公司也高度重视问卷式调查。自2014年上线以来,腾讯问卷累计使用用户已经超过100万,平台周PV超过千万。除了腾讯系产品微信、QQ、音乐、游戏等广泛使用腾讯问卷外,滴滴、58、链家、vivo、小米、央视315晚会、同程网等企业均使用腾讯问卷完成了大量的用户调查与研究项目。

不过,无论是传统的小样本民调,还是全样本的大数据分析,需要面临的一个共同问题就是数据分析能力还有待提升。

四、算法有偏见,比人强就行?

 今年7月,《哈佛商业评论》发表了一篇名为Want Less-Biased Decisions? Use Algorithms的文章,作者为Alex P. Miller。文中表示,虽然目前AI算法存在偏见,但是技术的进步如果有助于提高系统性能,这也是很重要的。即使有了偏见,也比人类的偏见小得多。

 这一观点得到很多人的认可,他们认为,判断和决策方面的心理学研究已经很多次证明了人类在各种背景下的判断非常糟糕,而大量的研究表明算法比人类更少偏见、更准确。 

不过,针对这篇文章,fast.ai的创始人之一Rachel Thomas有不同的看法。她认为,尽管人类确实总是作出有偏见的决定,但是算法偏见的影响实际上比想象的要深远得多。她指出文章中被忽视的问题,比如算法的实现通常没有适当的方法(因为很多人误解算法是客观、精准并且不会犯错的);在很多情况下,算法的使用比人类决策规模大得多,所以也会产生和人类相同的偏见(通常是由于算法使用成本低);算法的使用者也许不了解概率或置信区间(即使这些都已经标明了),而且如果让他们重写算法也会很困难等等。因此,我们关注的重点应该是怎样才能创造出偏见更少的决策工具。

不过,我们也不必要把算法看成是一种威胁,而是看成解决任何偏见问题的好机会,并能在必要的时候加以纠正。不要忘记,尽管人工智能发展非常迅速,但仍处于起步阶段,还有很多值得学习和改进的地方。随着技术的不断发展、相关法律法规的不断完善,人工智能会变得更聪明,运用方式会更加规范,我们将会有越来越多的方法来克服偏见等问题。

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

产业算法面部识别卷积神经网络机器学习
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

置信区间技术

在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

推荐文章
暂无评论
暂无评论~