Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Nature:对抗偏见,大数据算法需要更多责任

从搜索结果到个性化广告,算法在不知不觉中渗透进生活的方方面面。它既带来的信息和方便也造成了很多隐性的不平等,甚至是偏见。然而算法造成的偏见该如何消除,它虽不像人类偏见那样固执,但消除起来也没那么容易,涉及到公开算法使用的数据,以及算法本身的设计,然而这些又牵涉到设计算法的公司的隐私。幸运的是学界和业界已经意识到这一问题,并开始「问责算法」。


关于科学平等的呼吁一次次出现在媒体中,不是声称要追求最完美的平等就是呼吁找出不平等的根源。无害的废话?之所以说这些是废话,依据的并不是批评家在社交媒体和博客上抱怨的那些伪科学和其中牵扯的商业利益。


一些审查应该有一个更重要的目标。在很短的时间内,大数据算法的平等已经渗透到我们生活的每一个方面。一个巨大的产业已经成长起来,它们梳理并融合多个海量的数据集——文档,例如,上网习惯——来生成个人的档案。它们常常以广告为目的,但也传递了关于信用保险等的决策,它们帮助控制我们看到的新闻或广告,而且不论我们是否启用了它们。他们能决定是否让监控和法律执法机构像社会活动家和持不同政见者鞭策我们——或潜在的安全或刑事威胁。


不仅仅是缺少受欢迎的审查。而是在很大程度上缺少能够广泛使用的算法,比如管理民主生活方方面面的规则和保障的算法:充分监督、制衡、上诉、法定诉讼程序,以及过了法定时间后,将过去的罪行从记录中删除的权利。


算法,从最简单的到最复杂的,都是遵从几组指令或者学习完成一个目标。原则上说,它们可以通过减少人类的偏见和成见来做出公正的分析和决策。但是另一个风险是,它们也有可能增加偏见或成见,并且会复制或者加剧人类犯错(参考:J. T. Wilbanks and E. J. Topol Nature 535, 345–348; 2016)。在一个强大的计算机、机器学习和大数据时代,这些平等问题自然就出现了。


产生偏见,消除偏见


在美国的部分地区,司法部门使用的服务一般由商业公司提供,这些服务通常使用算法来预测某人再次犯罪的可能性。但事实上这些算法用来进行量刑决策,比如某人是否得到缓刑或假释。然而结果是有争议的,批评家们强调了该算法有造成对黑人偏见的风险。国家监督和执法机构正在采用类似的技术。


算法中存在很多偏见产生的根源。一个是规则的硬编码和数据集的使用,这已经反映在共同的社会自旋中,产生偏见,去除偏见。虚假或可疑的相关性是另一个陷阱。一个广泛引用的例子是使用算法会给那些需要较长通勤时间的人打负分,因为数据显示,长距离通勤与员工流失有关。


这有歧视贫困人口的风险,这些人往往是那些倾向于住的离中央商务区更远的少数群体。这反过来又加剧了这些地区的失业,并形成一个恶性循环。很多算法在使用犯罪或者其他数据时也容易陷入自我实现预言(self-fulfilling prophecies),造成对贫困人口和少数群体地区的偏见。还一个大问题是人们通常无从知晓他们的档案是基于什么来源建立起来的——或者它们根本就不存在。


「对算法简单过度的依赖存在严重缺陷」


立法者应该纠正算法的权力和责任中的不对称。最起码,应该对个人数据属于个人这个原则进行更广泛的讨论。人们有权知晓自己的数据,以及他们的数据档案是怎么建立起来的,同时也有权质疑这些数据。一些研究者强调尽管网络和社交媒体已经表现出有益于民主,但推荐算法还是会破坏社会结构——例如,给于极端观点生存空间,以及赋予那些煽情肤浅的虚假新闻或产生误导的谣言以特权。


今年 7 月,卫报总编辑 Katharine Viner 曾说,需要加入一些个性化算法以实现让算法可以按个人所想计算。但是这会可能会导致增强预先存在的观点,同时催生出一个让谎言和非理性繁荣的共鸣空间。

幸运的是,目前学术界正在推进更好的「算法责任(algorithmic accountability)」,,值得赞扬的是,像谷歌和微软这样的技术产业公司也参与进来。不断加快的速度和机器学习以及其他人工智能(AI)技术的采纳大大刺激了「算法责任」的推进。一个明智的做法是增加透明度,让算法设计者公开他们训练和使用的数据集源头。披露算法的设计本身就会向审查开放,但几乎可以肯定的是这将会与公司的保密措施产生碰撞。研究者希望找到一种在不透露算法的情况下纠正偏见的方式。


提出的补救措施中有一些是技术性的,比如开发出新的计算技术,能更好的处理和纠正训练数据集和算法中的偏见——一种对算法持肯定态度的措施。深入研究的目标是如何监控高度自主化的人工智能系统,对于这种系统,即便连设计者也不知道这个机器是如何做决定,或者达成结论的。这种深入研究有望开发出监控算法的算法。关于这项研究还需要很多讨论和工作。


由于在研究评估中使用了科学指标,所以过分依赖算法能存在严重缺陷。很明显,(更为复杂的)算法会导致世界上的一部分人落后于其他人。确实如此,无处不在甚至更复杂的人工智能算法已经存在。社会需要认真讨论如何摆脱会犯人类错误的软件和机器。

入门大数据Nature局限性观点产业
暂无评论
暂无评论~