如何打破AI偏见?Google是这么做的

在过去的几年里,全球各大公司都想在AI领域中抢占先机,各类重大AI计划发布的声音不绝于耳。在采访了89个国家的3000多名高管后,Gartner发布的一份报道称,自2015年起,仅用了四年的时间,AI的落地实现率就达到了270%。AI的发展让智慧家庭成为可能,也影响着我们的游戏娱乐方式。

但是,AI的快速发展也招致了不少批评。去年,一个名为“DeepNude”的AI网络项目因允许用户移除图片人物(以女性为主)的衣物,而成为众矢之的,随后被开发者撤下。就在几个月前,另一个名为“ Genderify”的AI工具,因为可以通过分析用户的姓名、用户名或电子邮件地址来识别用户性别,也在社交媒体上遭到了强烈抵制并被撤下。除此以外,与贷款、工作申请及预测性警务相关的算法也未能幸免于批评之声。

随着公众对AI侵犯隐私和加深种族及性别偏见的忧虑与日俱增,近年来,科技巨头也在致力于解决AI导致的偏见问题,不仅需要调整数据集,还需要对算法和模型架构设计进行改进。除了进行打破模型偏见的研究,Google还设立了一个适用于整个公司的生态体系,以提升机器学习的公平性,打造负责任的AI。

来自Google Cloud AI & 行业解决方案部门的Tracy Pizzo Frey 在近期举办的一场媒体交流会上分享到: “企业在AI领域由探索、试点、概念验证转向产品部署过程中,AI面临的信任危机正成为其面临的最大阻碍。”Tracy Pizzo Frey: Google Cloud AI和行业解决方案部门主管Frey称,要想把AI职责的关键组成部分和有时会相互矛盾的道德伦理系统地应用于Google AI开发和应用,首要任务是建立一套适用于整个Google的AI原则。因此,Google研究人员于2017年夏天开启了这项工作,在一年的时间里,进行反复修改和迭代,最终于2018年6月发布了这套原则。

该原则的第一部分由七项承诺组成,即“造福于社会;避免制造或强化不公平的偏见;为安全而建造和测试;对人负责;纳入隐私设计原则;坚持科学卓越的高标准;根据以上这些原则提供使用。”

第二部分则阐述了Google不会设计或部署AI的四个技术领域:导致或有可能导致整体危害的技术;主要目的或应用是为了导致或直接造成人身伤害的武器或其他技术;收集或使用信息以用于违反国际公认准则的监控的技术;其目的违背公认的国际法和人权原则的技术。

Frey表示, 这套AI原则是Google员工开发AI技术的通用标准。“任何我们认为可能与之相冲突的事项,我们都会进行AI原则的审查。”

为避免这些原则流于文字表面,Google ML Fairness and Responsible AI Product 主管 Tulsee Doshi 及其团队学习了关于 AI 的知识、专业技能、指导和教育内容,并用这些知识来指导项目,为理论研究和产品团队提供建议等。

作为Google Responsible AI生态系统的中心,Doshi 的团队需要定期向高层汇报敏感案件和话题,寻求改进建议。这个团队职责还包括道德伦理咨询、社会研究、技术研究和机器学习的基础研究。

Doshi团队的最终目标是要将他们学到的专业知识,分享给Google的所有产品领域。为此,他们不断从产品团队收集反馈。在Doshi的团队分享的专业知识后,就交由产品团队决定是否及如何实现和管理与AI 原则相关的流程。

Doshi在媒体分享会上说道:“事实上,任何一位 Googler 都可以对任意产品、研究报告或合作项目进行 AI 原则的审查。”

在这一过程中,审查团队首先会依据相关的AI原则,确定该领域的Google专家。随后,审查团队和产品团队在平衡利弊后,决定该项目能否启动,他们还需要仔细考虑项目启动后,可能出现的道德伦理问题。

去年,一位 Google 员工在 Cloud Vision API 运行一张自己的照片时发现自己的性别被搞错了,这个问题随后被提交给了Cloud Vision团队,他们启动了AI原则的评估和调查,得出的结论是:该产品违反了第二条AI原则——避免制造或强化不公平的偏见。

今年,Cloud 团队决定取消将图像中的人标记为「男人」或「女人」的标签功能。Frey称,“性别识别错误所带来的影响,会加剧或者产生不公平的观念,对于那些长相非传统定义的男性(女性)或非常规性别群体而言,他们会因此而受伤。”

我们期待越来越多类似的改变即将发生,这说明了社会发展及人类对事物理解的本质是不断发展的。今年4月,Google AI宣布了一种新方法以解决性别偏见问题,即采用一种截然不同的模式,重写或后期编辑初始译文。在10月上旬,Google发表了一篇学术论文,在BERT 和 ALBERT两大语言模型上进行了性别相关性测量,并提出了一系列与之相关的最佳实践。

Frey强调:“有时,后退一步也很重要。我们要看到,AI带来的某些结果不再适用于Google及我们的社区了。这时,AI作出改变,就势在必行。”

产业Google
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~