众多大型数据集的出现促进了人脸识别技术的快速发展,但这些数据集中的一张张照片来自何方?当事人是否知情?对于这些问题,数据集的制作者和使用者都不愿多谈。照片中的人和摄影师可能对此都不知情,想删除更是难于登天。更令人担忧的是,由于不可避免的偏见,这些数据集最终可能用于开发针对照片提供者的「武器」。
借助人脸识别,人们可以登录 iPhone,在人群中追踪犯罪分子,在商店中辨别出忠实顾客。此项技术并不完美,但正处于快速改进之中。它基于学习识别人脸的算法以及人脸的数百种特征。
为做好这一点,算法必须以数十万张不同面孔的图像为基础。这些照片出自网络,被数以百万计的人浏览,发布者的信息却无从得知。这些照片根据年龄、性别、肤色以及其他数十种指标进行分类,并且与大学和企业的研究人员共享。
随着算法的演进,它们能够更准确地识别女性和有色人种,这是一项困扰已久的任务——法律专家和公民权利倡导者正对研究人员使用普通民众的照片发出警告。这些普通民众的人脸在未经许可的情况下即遭使用,但目的却是发展最终用于监视他们的技术。
专家和倡导者称,这对少数群体构成特殊隐患,因为这些人容易受到关注,并且成为攻击的目标。
纽约大学法学院教授 Jason Schultz 说道:「这是 AI 训练集的内幕。研究人员通常随意抓取任何可获得的图像。」
作为最新进入该领域的公司,IBM 在一月份发布了取自照片托管网站 Flickr 的近百万张照片集,并编码描述照片主人公的相貌。IBM 向研究人员推广了该照片集,成为减少人脸识别偏见的一项进步举措。
但是,在得知自己的照片已经被标注了人脸几何特征、肤色等细节而且将用于开发人脸识别算法之后,一些摄影师感到震惊和不安。(在 IBM 拒绝分享并称数据集只能供学术或企业研究团队使用后,NBC News 利用自己的渠道获得了。)
一位波士顿公关经理 Greg Peverill-Conti 说道:「我照片里的那些人都不知道有人会以这样的方式利用他们的照片。」这位公关经理有 700 多张照片在 IBM 的照片「训练集」中。
他还说道:「IBM 在未告知任何人的情况下使用他们的图片似乎有点说不过去。」
IBM AI 技术经理 John Smith 称,IBM 承诺「保护个人隐私」,并且「任何人都可以要求删除其在数据集中的 URL 地址」。
尽管 IBM 承诺 Flickr 用户可以选择退出数据集,但 NBC News 发现,从数据集中删除照片几乎不可能。IBM 要求拍照者电邮他们想要删除的照片链接,但该公司却从未公开分享 Flickr 用户列表以及数据集中的照片,所以很难得知哪些人的照片在数据集中。IBM 并未对照片删除流程的相关问题做出回应。
如果想要知道自己的照片是否被纳入 IBM 数据集中,在 NBC News 根据 IBM 数据集而创建的工具中输入用户名:
IBM 称自己的数据集设计用来帮助学术研究人员将人脸识别技术向更公平的方向发展。IBM 并不是唯一一家以这种方式使用网络上公开照片的公司。其他数十家研究机构已经收集照片用于训练人脸识别系统,并且很多规模更大、时间更近的照片集也已经从网络中获取。
一些专家和激进份子认为,这不仅仅侵犯了数百万人的隐私,还引起了人们对人脸识别技术的更大担忧,他们担心执法机关会利用人脸识别技术过分针对少数群体。
AI Now Institute 是一家研究人工智能社会影响的研究所,该研究所联合主任 Meredith Whittaker 说道:「人们同意在不同的网络生态系统中共享自己的照片,但现在他们却在不情愿或不明就里的情况下陷入了可能被用以压制其所在群体的系统训练中。」
人脸识别演变历程
在构建人脸识别工具初期,研究人员花钱请人们来到他们的实验室,签署同意书,拍摄不同姿势以及不同光照条件下的照片。但是,这种做法花费较高且耗费时间,因此早期数据集限制在几百个研究对象。
随着 21 世纪网络的兴起,研究人员突然之间可以获得数百万人的照片。
Amazon Rekognition 使用户通过视频即可跟踪其他人,即使看不见这些人的脸。
P. Jonathon Phillips 负责为美国国家标准技术研究所(National Institute of Standards and Technology)人脸识别算法效能测试收集数据集,他说道:「用户会进入一个搜索引擎,输入一位名人姓名,下载所有图像。起初这些人往往是名人名流、演员和体育界人士。」随着社交媒体和用户生成内容的普及,普通人的照片也越来越容易获得。研究人员将此视为免费渠道,所以从 YouTube 视频、Facebook、Google Images、Wikipedia 和照片数据集中抓取人脸。
学者们常常申明自身研究的非商业性质,以规避版权问题。Flickr 之所以能吸引广大人脸识别研究人员,是因为在上面发布照片的大量用户签署了「知识共享」(Creative Commons)许可协议(放弃部分权利),这意味着其他人无需支付授权费即可重复使用这些用户的照片。这类许可协议有些允许他人将照片用于商业用途。
IBM 表示,为了构建多元化的人脸数据集,该公司利用了 Flickr 母公司雅虎(Yahoo)2014 年发布的一批拥有知识共享许可的图片,这些图片供研究人员下载。根据 NBC New 获得的数据集,IBM 利用自动编码和人工估计,已经将数据集中的人脸照片限制到 100 万张左右,每张照片都有注释,并且包含近 200 个细节值,如面部特征、姿势、肤色以及大致年龄和性别的检测。
IBM 对数据集中每个人脸的数十种检测值都进行了计算。
这只是众多源自网络的数据集的个案研究。据 Google Scholar 称,数百篇学术论文研究都是基于这些大型数据集进行的——如 MegaFace、CelebFaces 和 Faces in the Wild——从而在人脸识别和分析工具的准确性上取得大的飞跃。很难找到愿意公开谈论训练数据集来源的学者;很多学者利用从网上获取的照片集取得研究进展,却没有获得照片所有人的明确许可或同意。
构建那些数据集的研究人员没有对评论请求做出回应。
IBM 如何使用人脸数据集
IBM 向其他研究人员推出了带有注释的照片集,从而可用于发展「更公平的」人脸识别系统。这意味着,人脸识别系统可以更准确地识别所有种族、年龄和性别的人。
IBM 的 John Smith 在一篇宣布发布该数据的博客中说道:「为使人脸识别系统运行达到预期且人脸识别结果愈加准确,训练集必须多样化且覆盖范围要广。」
数据集并没有将人脸照片与姓名联系起来,这意味着任何训练以使用照片的系统都不能识别指定的个人。但是,公民自由倡导者和技术伦理研究人员依然质疑 IBM 的动机,后者曾因出售监控工具侵犯公民自由而受到批评。
举例而言,9/11 恐怖袭击后,IBM 公司向纽约警察局出售技术,使后者能够搜索闭路电视中特殊肤色或发色的人。IBM 还推出了一款「智能视频分析」(intelligence video analytics)产品,利用人体摄像头监控区分不同种族的人。
IBM 在一封邮件中称,这些人脸识别系统「在本质上不具有歧视性」。但又补充道:「IBM 相信这些系统的开发人员以及部署它们的机构有责任积极减少偏见。这是 AI 系统赢得用户和公众信任的唯一途径。IBM 完全接受这一责任,并且不会参与涉及种族定性的工作。」
现在,IBM 公司出售一种名为 IBM Watson Visual Recognition 的系统,并称在拥有正确训练数据的情况下,该系统可以通过所示图像估计人们的年龄和性别。客户可以使用该系统来识别照片或视频中的特定人士。
NBC News 质问 IBM,IBM Watson 为提升商业人脸识别能力而使用了哪些训练数据。他们还援引了该公司的一篇博客,该博客称 Watson「对哪些人训练 AI 系统以及哪些数据用以训练这些系统是透明的」。IBM 公司回应称其使用「不同来源的」数据来训练 AI 模型,但并没有公开披露这些数据,以「保护 IBM 的洞察力和知识产权」。
IBM 在公开声明中称,Diversity in Faces 数据集单纯是为了学术研究而创建的,不会用于提升 IBM 公司的商业人脸识别工具。这似乎与 IBM 一月份宣传材料中的公司声明自相矛盾,该声明称发布数据集是对麻省理工学院(MIT)Joy Buolamwini 所做研究的直接回应(该研究表明 IBM 的商业人脸识别技术在识别较深肤色女性的准确性上比浅肤色男性差得多)。
Smith 被问及这一自相矛盾的说法,特别是如果在商业人脸识别产品中不使用 Diversity in Faces 数据集,那么该数据集又如何在减少偏见方面产生实质性影响呢?他在一封邮件中回应道:「人脸多样性的科学研究将加深我们的理解,使我们在实践中构建更公平、更准确的系统。」
Smith 说道:「IBM 意识到科学并不一定能够完全解决社会偏见,但 IBM 的目标是解决数学和算法上的偏见。」
专家指出,IBM 和 Facebook 等企业的研究部门和商业运营之间的界限是模糊的。最终,IBM 享有其研究机构开发的所有知识产权。
人脸识别公司 Kairos 的前 CEO Brian Brackeen 表示:「即使算法是学术研究人员利用非商业数据集开发出来的,这些数据集随后也由企业所使用。」
他说道:「打个比方,如果将其看作是洗黑钱,那么人脸识别就是在洗去人脸上的知识产权和隐私权。」
IBM 称其不会以这种方式使用 Diversity in Faces 数据集。
摄影师们对 IBM 的数据集意见不一
Georg Holzer 是一位澳大利亚摄影师和企业家,他将自己拍摄的照片上传至 Flickr,来纪念与家人和朋友的美好时刻。同时,他认可知识共享许可协议,允许非营利组织和艺术家免费使用他的照片。但是,他不希望自己的 700 多张照片被别人私自用来研究人脸识别技术。
当被告知他的照片被纳入 IBM 的数据集时,他通过 Skype 说道:「我了解此项技术所能造成的危害。当然,人们永远不能忘记图像识别的良好利用,如更快找到家人照片。但是,图像识别的使用也能限制基本权利和隐私。我永远不会赞成或同意此项技术的广泛应用。」
Georg Holzer 的 Flickr 照片被收录在 IBM 数据集中
Holzer 很担心像 IBM 这样的公司——即使是这些公司的研究部门——已经使用了其在非商业许可下发布的照片。
他说道:「我认为 IBM 不是一个慈善机构,归根到底,IBM 想要利用这一技术赚钱,所以该技术显然会用于商业用途。」
Dolan Halbrook 居住于俄勒冈州波特兰,他在该数据集中有 452 张照片,并且认同 IBM 应该获得他的许可。
Halbrook 说道:「我对 IBM 没有事先通知即使用这些照片并且没有机会查看哪些照片包含在内感到烦恼。我也对改进技术本身感到矛盾。」
Greg Peverill-Conti 的 Flickr 照片收录在 IBM 数据集中
其他摄像师很高兴听到自己的照片被用来促进人脸识别领域的发展。
专门从事肖像摄影的英国食品顾问 Neil Moralee 说道:「人脸识别是我们无法舍弃的事物之一,所以拥有一个可靠的系统比一个产生误差和错误识别的系统要好。」
来自瑞士的 Guillaume Boppe 同意这种做法并说道:「如果我拍摄的人脸图像有助于改善 AI,减少误检,并能最终促进全球安全,那么我不会介意。」
来自阿根廷的 Sebastian Gambolati 很高兴能够为更准确地找到失踪人口或追踪犯罪分子做出贡献,但也表示如果「IBM 事先询问自己」会更好。
他说道:「在我的 Flickr 账户中,我拍摄了很多自己不熟悉的人的照片,并且不知道他们对 IBM 公司未经同意即使用他们的照片有何看法。」
Sebastian Gambolati 的 Flickr 照片收录在 IBM 数据集中
想删照片?难上加难
IBM 提供某种形式的照片删除模式:人们可以就自己想要从数据集中删除的照片链接联系 IBM 公司——这些照片要么是他们拍的,要么他们自己出现在照片中——IBM 会根据隐私声明删除这些照片。但是,很难知晓自己是否出现在数据集中,即使发现自己出现在数据集中,IBM 称其不会根据 Flickr 用户 ID 就删除照片,除非用户还可以提供这些照片的链接。
NBC News 提醒一位拍照者(出于隐私原因未具名),他的 1000 多张照片被收录在 IBM 数据集中。他试图通过向 IBM 发送其 Flickr 用户 ID 来撤销照片。但 NBC News 看到的一封邮件显示,IBM 告知他,数据集中没有收录他一张照片。当 NBC News 给出 IBM 数据集中这位拍照者照片的具体链接时,IBM 用「索引错误」来为自己先前的说法开脱。一个多星期后,IBM 确认其已经删除这位拍照者提供链接的四张照片。据 NBC News 分析,这位拍照者依然有 1001 张照片被收录在 IBM 数据集中。
IBM 的 Smith 称公司已经完成所有的 URL 删除请求。
IBM 称,即使一幅图像已经从 IBM 数据集中移除,这幅图像也不会从已与科研合作伙伴共享的各版本数据集(目前为止,约 250 家机构已经要求使用 IBM 数据集)和 Flickr 基础数据集中删除。
对于那些被 IBM 数据集或类似数据集收录的人而言,此举令他们撤销照片的想法变得不切实际。
然而,由于隐私权的兴起,法律开始承认人脸照片的独特价值,人们在一些行政辖区可能拥有追索权。根据欧洲《一般数据保护条例》(General Data Protection Regulation,GDPR),如果照片被用来确认个人身份,则被认为是「敏感个人信息」。不希望自己的照片被收录在数据集中的欧洲居民可以要求 IBM 予以删除。如果 IBM 不遵从,他们可以向本国数据保护当局投诉,并且如果某些照片属于「敏感个人信息」的范畴,当局则可以对违反相关法律的公司进行罚款。
美国一些州也有相关法律。例如,根据《伊利诺伊州生物特征信息隐私法》(Illinois Biometric Information Privacy Act),未经本人书面同意采集、储存和共享生物特征信息是违法的。根据该法令,生物特征信息包括指纹、红膜扫描和人脸几何特征。
芝加哥集体诉讼律师 Jay Edelson 最近控诉 Facebook 使用人脸识别工具,并说道:「这是一种很容易遭到滥用的大量采集和生物特征数据使用,并且看起来是在未通知照片本人的情况下发生的。」
目前为止,这些法律均未受到严格的检验。
IBM 拒绝就这些法律作出评论。
人脸识别越准确,人们越会感到极度压抑
除隐私问题外,一个更大的问题是:愈加准确的人脸识别系统在实际中会「更加公平」吗?人脸识别有可能是公平的吗?
美国东北大学法学和计算机科学教授 Woody Hartzog 说道:「人们的确陷入一种进退两难的境地。不准确的人脸识别非常有害,但人脸识别越准确,人们就越会感到极度压抑。」
尽管人脸识别可以得到良性使用,但也可以用来监视和针对有色人种以及其他弱势和少数群体。人权组织称,人脸识别中的面部照片数据集更有可能收录非裔美国人、拉丁美洲人和移民人士,这些群体往往更容易在警方执法过程中受到偏见和针对。这意味着上述群体在人脸识别技术下更容易「被找到」,即使因其拍摄面部照片而遭到误捕。
执法机关利用人脸识别监视系统充满争议,所以超过 85 个种族平等和人权组织组成的联盟已经要求科技公司拒绝将技术出售给政府。这些组织认为,人脸识别技术加剧了「历史遗留和现有偏见」,对那些已经遭受「过度监督和监视」的群体造成伤害。
来自 AI Now Institute 的 Whittaker 说道:「执法机关通常在压抑的环境中部署这些系统,他们的目标是促使这些系统更好地监视所有人,这一目标需要我们持怀疑的态度看待。」