今年 5 月,亚马逊因为将 Rekognition AI 服务出售给美国地方警察而引起了争议,美国公民自由联盟(ACLU)一直要求该公司停止授权政府部门使用这项技术。
近日,美国公民自由联盟测试了亚马逊的人脸识别系统——结果不太乐观。为了测试该系统的准确性,ACLU 使用亚马逊公开的 Rekognition API,对照 25,000 张公开的罪犯人脸照片扫描了所有 535 名国会议员(100 名参议员,435 名众议员)的脸部照片。那些罪犯的脸部照片中显然并不包含任何一个国会议员,但是亚马逊的系统产生了 28 个错误匹配,这一发现引发了 ACLU 对警方使用 Rekognition 的密切关注。
ACLU的质疑
「一个识别系统——无论准确与否,都有可能剥夺人的自由乃至生命,」该联盟在一份附带声明中说道,「国会必须认真对待这些威胁,紧急刹车,并颁布暂停执法人员使用人脸识别的法令。」
亚马逊的一名发言人将此次失误归因于校准不良。ACLU 测试时使用的 Rekognition 默认置信阈值为 80%,而亚马逊建议执法时应使用至少 95% 的置信阈值,因为执法时的错误识别会产生更加严重的后果。
「尽管 80% 的置信阈值对于热狗、椅子、动物或社交媒体上的其他用例来说已经是一个可以接受的限度,」联盟的代表提到,「但用这一看似合理的值来识别人类个体就没那么合适了。」虽然 Rekognition 不会在设置过程中强制执行该默认值,但也没什么可以阻止执法机构使用默认设置。
亚马逊的 Rekognition 今年五月份火了一把,因为 ACLU 的一份报告显示,该系统被许多执法部门采用,包括奥兰多警方使用的一款实时识别测试系统。该系统被作为亚马逊云产品的一部分出售,纯属白菜价,整个部门一个月支付的成本还不到 12 美元。在试用期过后,奥兰多警方决定继续使用该系统。
ACLU 最新实验的对象是俄勒冈州华盛顿郡治安部门使用的 Rekognition 系统,实验图像与多达 30 万张面部照片的数据库进行了比较。
「这不是假设,」北加利福尼亚州 ACLU 测试组织者 Jacob Snow 说道,「这是 Rekognition 已经投入使用的场景。」
该测试还显示出了长期困扰人脸识别系统的通病——种族偏见。28 个错误匹配中有 11 个是有色人种的错误匹配(约占 39%),包括民权领袖众议员 John Lewis 和国会「黑人核心小组」的其他五名成员。当前美国国会只有 20% 的议员是有色人种,这表明错误匹配率对有色人种的影响要大得多。这一发现与 NIST 的「人脸识别供应商测试」结果相呼应,后者在测试女性和非裔美国人时错误率较高。
Lewis 在一份声明中写道:「ACLU 对亚马逊 Rekognition 系统的测试结果令人深感不安……作为一个社会,我们需要技术来帮人解决问题,而不是加重有色人种在这个国家面临的不公。黑人和棕色人种已经成为歧视性判决系统不公正的受害者,该系统导致了大规模监禁,拆散了数百万家庭。」
在没有匹配的数据库上运行人脸识别可能看起来是失败的关键所在,但这就是现有人脸识别系统的日常。伦敦警察厅使用的系统每次会出现 49 个错误匹配,要求警方手动对错误判断进行分类。更重要的是在 Rekognition 测试中出现错误匹配的比率,超过 5% 的受试者群体触发了某种形式的错误匹配。
实际上,大部分人脸识别 ID 在用于罪犯逮捕等任务之前都会先进行确认。但批评者认为,即使只是检查一个人的身份也会给这个人带来伤害。「想象一下,如果一名警察在逮捕某个藏匿武器之人时得到了错误的匹配信息,」Snow 说,「然后警方根据这一错误信息进行逮捕,那被误以为罪犯的人就会有真正的危险,因为这很容易引发暴力。」
该测试也引发了人们的另一个担忧——警方可以在没有监督的情况下轻易部署 Rekognition。ACLU 的所有数据都是通过公开渠道获得的,包括 25000 张人脸照片。(出于隐私保护,该组织拒绝透露具体来源,但很多州把人脸照片作为公共记录。)亚马逊的系统也比非基于云的产品便宜得多,仅收取了 ACLU 12.33 美元的测试费用。
这项测试已经引起了三名国会议员的强烈反应。测试结果发布后不久,参议员 Ed Markey、 众议员 Luis Gutiérrez 和 Mark DeSaulnier 在给亚马逊 CEO Jeff Bezos 的一封公开信上签名,要求其提供使用这项技术的执法机构完整名单,并询问对 13 岁以下儿童使用这项技术的保障措施。
信中写道:「人们非常担心人脸识别可能对隐私和公民权利构成的威胁,尤其是当人脸识别被用作政府监控的工具时。」
亚马逊的反击
面对众多媒体的报道以及大量质疑,亚马逊很快作出了反应。27 日,亚马逊发布了一篇文章,介绍了该公司关于机器学习准确率和偏见的简单看法:
我们首先对 ACLU 最近的博客作出一些评论。ACLU 进行了一次人脸识别实验,他们利用 25,000 张公开发布的罪犯照片建立了一个人脸数据集,然后根据 Rekognition 系统,使用国会所有现任议员的公开照片对该数据库进行面部相似性搜索。他们使用了 80% 的置信阈值,在 535 张议员照片中发现 28 个错误匹配;该项测试结果为 5% 的识别错误(有时称为『假阳性』)率和 95% 的准确率。ACLU 没有详细公布其数据集、方法或结果,所以我们只能听任他们公开发表的言论。但,以下是我们关于对方主张的一些想法:
1. Rekognition 系统中人脸识别 API 的默认置信阈值为 80%,这对很多通用案例来说很实用(如在社交媒体上识别名人或者在照片应用中识别长相相似的家庭成员),但这并不适用于公共安全领域。ACLU 使用的 80% 置信阈值过低,无法保证准确识别个体;以该置信阈值水平识别个体,出现误差也在我们的意料之中。在需要高度精确的面部相似性匹配案例中,我们建议使用 99% 的置信阈值(如我们在公共文档中所示)。
为了说明置信阈值对假阳性的影响,我们进行了一项测试,用学界常用的一个包含 85 万多张人脸照片的数据集创建了一个人脸照片集合。然后,我们使用美国国会(参议院和众议院)所有成员的公开照片,以类似于 ACLU 博客的方式搜索该集合。
当我们把置信阈值设置为 99%(正如我们在文档中建议的那样)时,识别错误率降为 0%——尽管我们使用了更大的人脸库(是 ACLU 测试的 30 倍)。这说明使用该技术帮助解决公共安全问题时,选择适当的置信阈值至关重要,这可以让它们几乎不会出现误差。
2. 在现实世界的公共安全和执法场景中,亚马逊的 Rekognition 系统仅仅是用来帮助缩小范围,人们可以根据自己的判断来快速审查和考虑多个用途(而不是由计算机做出完全自主的决定)。这些用途包括寻找走失儿童、打击人口贩卖或预防犯罪。在这些应用中,Rekognition 通常只是识别个体的第一步,还需要人为的进一步确认。但在其他应用案例——如社交媒体中,不需要重复审查,这种情况下置信阈值稍微低一点也没关系。
3. 除了置信阈值设置偏低之外,ACLU 的测试结果出现误差的另一个重要原因是——使用的人脸数据库本身就不太恰当,有失偏颇。在此案例中,ACLU 使用了罪犯人脸数据库,该数据库可能对 Rekognition 系统识别的准确率造成重大影响。
4. 类似 Rekognition 这种基于云的机器学习应用有一个优势:当我们用更多的数据不断改进算法时,它会不断地得到改进,而我们的客户也能立即从中受益。亚马逊始终抱有一个愿景——使 Rekognition 成为识别人、物体、场景的最精准、最强大的工具,这当然包括确保结果没有任何偏差,不会影响准确率。在打击人口贩卖、找回走失儿童、减少移动支付诈骗和提高安全性的斗争中,Rekognition 系统已经为客户和整个世界带来了很大价值,我们期待未来继续利用 Rekognition 帮助客户和整个社会。
5. 一个普遍的误解是,人比机器更善于将人脸与照片进行匹配。实际上,美国国家标准与技术研究院(NIST)近来分享了一项关于人脸识别技术的研究,该研究中使用的技术至少比 Rekognition 落后两年。然而得出的结论是,即使是那些更老的技术也能超过人类的人脸识别能力。
关于 ACLU 结果,我们还想说最后一点。当出现新的技术进步时,我们都必须明确到底什么是真的,什么不是。使用机器学习来识别食物和使用它来确定面部匹配结果是否需要执法行动是有区别的。后者不可儿戏,需要更高的置信阈值。
亚马逊仍建议客户在执法时不要使用低于 99% 的置信阈值,并且只将匹配结果作为一个输入,这对每个机构都有意义。机器学习对执法机构来说是一个非常有价值的工具,尽管担心该技术是否被恰当应用没错,但我们也不应因噎废食。另一方面,政府当然需要认真思考如何设置恰当的置信阈值,以使执法部门有效地使用新工具。
ACLU 展示了 28 名被「错误匹配为罪犯」的美国现任国会议员
参考原文:https://www.theverge.com/2018/7/26/17615634/amazon-rekognition-aclu-mug-shot-congress-facial-recognition
https://aws.amazon.com/cn/blogs/machine-learning/thoughts-on-machine-learning-accuracy/