参与张倩 蛋酱

姓名、住址、工作单位「拍立得」,这家数据集公司手握数十亿人脸数据

今年 1 月,《纽约时报》的一则长篇报道让专做「人脸数据」生意的 Clearview 浮出水面,引发了人们对网络数据爬取与个人隐私的担忧。一位 Medium 博主日前「申请」拿到了自己在 Clearview 库中的资料,发现事情确实有些复杂。

在社交媒体发布自己的照片时,你会不会迟疑一下?

如果这张公开发布的图片,被有心人利用呢?

如果任何一个陌生人在街上、在餐厅里拍下你的脸,靠着这张脸就能很快就能搜到你的姓名、住址、工作单位、教育背景,乃至你此前在社交网络上发布过的所有照片呢?这确实是一件可怕的事。

有一家名为「Clearview」的公司,会收集你在社交网络上发布过的所有照片,建立你的详细资料文档,实现仅用一张脸就能搜出一个人全部资料的功能,然后再把这个程序出售给政府机构和警察部门,帮助执法机构确认你有无犯罪记录。

在今年 1 月被《纽约时报》报道之前,Clearview 或许只是硅谷众多名不见经传的创业公司之一。但这家创立仅三年的公司,数据拥有量却非常惊人:一个简单程序的背后,是超过三十亿张图像的数据库。Clearview 宣称这些图像是在 Facebook、YouTube、Venmo 等社交媒体上抓取的,这个量级远远超出了美国联邦政府或者任何一家硅谷巨头的数据库体量。

三年多来,Clearview 一直在「阴影」中运作。随着媒体的跟进,大家发现,这家公司的实际客户也并非只有「执法机构」,工会、房地产公司也会试用该程序对他们认为有风险的人进行判断和标记,此外还有百思买、梅西百货、科尔百货等零售商,都曾试用过 Clearview 的程序,但具体用途不得而知。

当然,在现阶段,Clearview 搜集的资料对于普通人来说并不是触手可得的,因此大部分人还不知道他们究竟能将一个人的信息还原到何种程度。但最近,Medium 的一位博主为我们揭开了这个谜底。
这位博主名叫 Thomas Smith,是人工智能公司 Gado Images 的联合创始人和 CEO。他通过某种方法从 Clearview 手里拿到了自己的个人文档。当然,这里说的「某种方法」并不是侵入该公司系统,而是「合法申请」。

原本像 Clearview 这样的公司,是不需要共享其数据的。但在今年 1 月 1 日,「加利福尼亚州消费者隐私法案(CCPA)」正式生效,该法案对数据搜集和使用权限做了详细规定。

根据该法案,收集消费者数据的企业必须披露收集信息的内容、商业目的以及共享这些信息的所有第三方组织和机构。如果消费者有需求,企业须依据消费者提出的正式要求删除相关信息。基于该法案,Thomas Smith 向 Clearview 公司提交了获取个人文档的申请。

一个多月后,Smith 才收到 Clearview 的回复,对方要求他填写了一些表格并提供个人照片用来搜索。

在申请过程中,他向 Clearview 提供了以下源图片:
在照片发出去几分钟之后,Smith 就拿到了包含自己个人信息的文档,其详尽程度让他觉得脊背发凉。

Thomas Smith 的文档非常详细,有些甚至他自己都记不太清了,比如他参加过的一个 Python 码农小组、刚结婚时写的一系列博客。

可以说,这份文档详细记录了他的活动轨迹,包括 2012 年他的母校校友杂志上发的一篇有关他的文章,他 Facebook 页面的 URL、和他有联系的几个人的名字(红色遮盖的两个部分,包括一名辅导员和一位家庭成员)。
最让 Smith 担心的是,文档中信息并非完全正确,其中有一个 Facebook 页面链接是其他人的。Smith 觉得,如果调查者认为那是他的化名就会很麻烦,那个页面的人所犯的罪行就会被用来对 Smith 发起指控。
Smith 的担心可能并不是多余的。在各种 deepfake 技术风靡的今天,如果有人篡改了你的某些信息并将其上传到网上,这部分内容可能也会被收录到 Clearview 的文档中并打包发给执法者或其他人。

另据《纽约时报》报道,有人在 Clearview 的底层代码里找到了适配 AR 眼镜的编程开发语言。也就是说,如果有人基于 Clearview 的数据开发出一款 VR 眼镜,那戴上眼镜的人就可以肆无忌惮地实时窥探视力范围内所有人的隐私信息。

Smith 还指出,在当前的法律框架下,创建一家 Clearview 这样的公司其实并没有太高的门槛,任何有创业背景的人都可以在一年之内做到。

Smith 提醒大家,如果担心自己的脸部照片也被以类似的方式收集,只要你是加州居民或欧盟公民,那么 Clearview 在法律上就有义务将你的个人资料提供给你,你要在申请邮件里明确提到 GDPR 或 CCPA 规定。

收到数据后,你可以要求 Clearview 删除,也可以要求对错误部分进行修改,至少这样可以在一定程度上保护自己。

参考链接:
https://onezero.medium.com/i-got-my-file-from-clearview-ai-and-it-freaked-me-out-33ca28b5d6d4
https://www.nytimes.com/2020/03/05/technology/clearview-investors.html
产业数据集计算机视觉
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

推荐文章
暂无评论
暂无评论~