Nature故事:从DNA预测罪犯外貌,AI手段获五角大楼青睐

一般DNA表型研究都集中于绘制面部特征点,比如眼睛和头发的颜色。但Parabon Nanolabs另辟蹊径,除特征点外,还对某人的血统进行全面分析,提取出综合的面部轮廓。 

这个问题的本质就是机器学习——收集大量DNA样本和面部照片,训练算法找出DNA与面部特征之间的关系。

编译 | 机器之能

DNA一直以来都是「刑侦利器」。 
最常见的用途就是比对嫌疑人和犯罪现场证据的DNA,此外还有「追踪嫌疑人」功能。各个国家或地区都建有自己都DNA库,追踪嫌疑人时只需要将嫌疑人DNA与库中的DNA相匹配以溯源家族,寻找嫌疑人亲属。 
Parabon Nanolabs是世界上最著名的法医遗传公司,在2019年之前,它几乎每周都可以利用DNA追踪帮助警察破获长久未解决的疑难案件,有些案件甚至可以追溯到20世纪60、80年代。 
但大多数人不知道的是,DNA还有更加神奇的用途。 
在2019年5月的一次破案过程中,Parabon Nanolabs的破案手法受到了广泛的伦理质疑,可用的DNA数据大大减少。此后,Parabon Nanolabs转向了公司初期的商业模式——通过DNA重建一个人的外表。

 一 争议:我们还有DNA隐私吗?
将DNA样本与家谱相结合是法医遗传谱系的核心,该过程原理也不复杂,就是简单统计规则。 
父母与子女之间、兄弟姐妹之间共享50%的DNA,祖父母与孙子女共享25%的DNA,即便是远房亲戚也共享一小部分DNA。这样一来,基因测试便可以估算出样品背后两个人之间的关系。 
在刑事案件中,通过将犯罪嫌疑人的DNA与家谱数据库中的档案进行比较,拼凑出嫌疑人的家谱,就可通过亲属关系追踪嫌疑人。 
不过这种手法需要大量的DNA信息作为支撑。在美国,DNA数据主要来自于GEDMatch,这是一个免费使用的网站,起初是允许用户上传自己的DNA寻找失散多年的亲戚,后来一位侦探利用该网站找到了破获了金洲杀手案(1970、1980年的连环奸杀案)。 
此后GEDMatch就走向刑侦领域,除非用户明确拒绝,否则GEDMatch允许执法机构访问个人资料,以帮助解决谋杀和性侵犯。 
GEDmatch数据库的共同创建者Curtis Rogers(左)和John Olson
犹他州2018年的一个下午,71岁的受害者在练习风琴时被人用石头砸伤并用绳子勒到昏倒。警察在现场在发现了嫌疑人留下的三滴血,但与州和联邦数据库中的任何人都不匹配,于是联系到了GEDMatch的授权批准。 
最初拒绝此案的Parabon Nanolabs最后签署了协议,对居住在该地区的个人进行了数次部分DNA匹配,立刻找到了嫌疑人的三个亲戚,其中一个人曾经多次与警察发生冲突,而他17岁的侄子与受害者描述的嫌疑人刚好相符。警察从嫌疑人在学校扔进垃圾里的牛奶盒上获取了DNA样本,证明与现场血液DNA相匹配。2019年4月,嫌疑人被逮捕。 
在此之前,媒体对DNA追踪的报道大多数积极的,但犹他州案件却在当时引起了家谱学家、隐私和广大公众的反对。因为GEDMatch条例规定只有在性侵和谋杀的情况下才能使用数据,但犹他州案件并不属于二者,已经侵犯了用户隐私。 
Parabon Nanolabs一直认为自己并没有侵犯隐私,「公众对金洲杀手案反应如此积极,但对犹他州案反应如此消极,我感到非常惊讶。」生物信息学负责人遗传学家艾伦·麦克雷·格雷塔克(Ellen McRae Greytak)说。 
但舆论却并不这么认为。「将DNA档案上传到GDEMatch等网站上就是用户放弃了自己的隐私权利,同时也侵犯了某些远亲的隐私。」英国纽卡斯尔诺森比亚大学的伦理学家Matthias Wienroth表示,事实上,在家进行的DNA测试的增多已经使一些基因系谱数据库变得非常庞大。2018年的一篇科学论文估计,这些数据可以识别出60%的欧洲血统的北美人,即使他们自己从未参加过这些测试。 
作为对舆论的回应,GEDMatch表示只有用户专门表示可将信息用于执法手段的情况下才可以使用数据。一夜之间,Parabon失去了其主要的DNA数据来源。 
随后,Parabon Nanolabs转向了最初的商业模式,直接根据DNA重绘面部。

 二 机器学习让DNA重建面部
Parabon Nanolabs在2008成立于一家地下车库中,最初是提供超级计算服务。2011年,这家刚起步的公司便获得了美国国防部的拨款。 
当时国防部想开发一种技术:从炸弹上残留的少量DNA中识别出该建议爆炸装置的制造者,该技术被称为「DNA表型分析」。 
大多数研究DNA表型技术的实验室都在试图寻找一个人的遗传密码的单个字母变化(单核苷酸多态性(SNP))与眼睛、头发、颜色等物理特征之间的关系。 
这种办法只能获得嫌疑人的特征点,比如眼睛和头发是绿色的。但是Parabon Nanolabs另辟蹊径,除特征点外,还对某人的血统进行全面分析,提取出综合的面部轮廓。 
这个问题的本质就是机器学习——收集大量DNA样本和面部照片,训练算法找出DNA与面部特征之间的关系。正是这种思路让他们获得了赢得了国防部的青睐。 
理论上这种办法只适用于血样和颊拭子中的大量高质量DNA,但是法医样品DNA通常很小且会降解,只有1毫微克,但是实验所需的DNA是200毫微克——一卡车法医样本的量。
使用如此少量的DNA进行的测序操作通常会使遗传密码的部分留空,因为样品降解程度太高或稀释度太低而无法读取。但Parabon Nanolabs为此建立了专有算法,以预测其数学模型中的此类空白点。现在已经可以从1毫微克的DNA中构建一张脸。 
「我们也会对较低质量的DNA做出的预测缺乏信心,但结果证明很少发生问题。」 Greytak说。 
该预测程序被称为「Snapshot」,发布于2014年,Parabon表示,自2018年以来,警方已利用其遗传谱学和表型分析方法解决了120多个案件。
Parabon的Snapshot工具使用DNA重建面部。该嫌疑人后来因1987年谋杀案被定罪。
我国也有DNA面部识别的相关研究,今年7月一篇发表于《遗传》杂志上的论文《中国汉族人群脸部特征相关 SNP 位点研究》详细描绘了该方法。研究人员利用机器学习和面部识别相关技术,将人脸照片量化为多个特征点之间的欧几里得距离,并将这些距离作为表型变量进行全基因组关联分析,从而识别出数十个与面部特征紧密相关的SNP位点。
因为眼睛颜色、头发质地、皮肤特征等相关基因点早已被确定,加上这些面部特征相关基因位点就可以勾画面部。 
不过,Parabon Nanolabs所使用的技术尚未在同行评审的文献中进行评估,这就引来了一些仅做面部特征点公司的怀疑,「我们对面部的了解是非常有限的,Parabon Nanolabs可以在DNA中预测到面部却从未告诉我们怎么做到的,这很糟糕。」一位DNA表型研究者说,「科学家已经发表了数百篇有关特定遗传变异与物理特征之间关系的论文,但是研究人员仍然不知道这些个体特征如何成为人的独特面孔」。 
也有公司怀疑,Parabon的数据数据不过是创造了一组平均的、通用的面孔,公司再调整以填补空白。「我们不知道他们判断面孔外貌的能力是靠运气还是根据我们对祖先的了解而做出的近似描绘。」

 三 伦理担忧:如果不认识这个人,我们看见的只是种族
「如果我们不认识这个人,我们看见的只是种族。」 
不管是DNA家谱还是DNA表型研究都面临着隐私和伦理争议。 
去年GDE Match被一家DNA表型分析公司Verogen收购,目前已将其145万个DNA配置文件中的280,000个用于刑事侦查。公司声称会在隐私和安全之间寻求平衡,但今年7月 GEDMatch被黑客入侵,可能在未经其同意的情况下将其数据暴露给执法部门。 
随后Verogen关闭了GDEMatch,「直到我们能够绝对确保用户数据受到保护,免受潜在攻击为止。」 
隐私之外,偏见是一个更不容易被察觉的负面影响,「将家谱和犯罪联系起来的工作可能会导致对某些家庭或种族群体的偏见。」葡萄牙布拉加米尼奥大学的社会学家海伦娜·马查多(Helena Machado)说,过分强调遗传学和犯罪之间的联系意味着研究人员不太可能关注导致违法的社会和经济因素。 
伦理学家的担忧似乎已经成了现实。今年1月,美国国土安全部宣布,其移民和海关执法局(ICE)部门启动了一项试点项目,从被拘留的移民身上收集DNA,并将所得序列上传到联邦调查局的官方法医DNA数据库。 
不过,GEDmatch数据库创始人Curtis Rogers依然对法医遗传技术的未来充满信心,「我认为,假以时日,或许不需要很长时间,人们就会接受执法部门使用族谱的事实,不用担心。」 

侦破犹他州案刑警Taggart也表示并不后悔使用GDEMatch,因为他确实用这个办法追捕到了嫌疑人。 

参考资料:
https://www.nature.com/articles/d41586-020-02545-5
https://roboticsandautomationnews.com/2020/09/14/dna-paints-a-literal-picture-of-your-face/36401/
产业基因编辑机器学习
暂无评论
暂无评论~