在NSA会如何处理机器算法结果,如何对待被识别出的信使这个节骨眼上,大家都没有直接证据,于是,有的大胆向左走,有的保守往右转。不过,值得庆幸的是,争议各方虽在细节上纠结,但是,大家都认为NSA天网计划是无耻的,除了技术问题,有太多值得谴责的地方,比如,隐私权以及法律道德问题。
NSA的天网计划是什么?
2015年5月8日, Intecept披露NSA确实有一项名为天网(Skynet)的计划。这项计划旨在大规模监控巴基斯坦移动电话网络,然后使用机器学习算法分析5500万用户移动网络元数据,评估用户恐怖分子可能性( likelihood of being a terrorist)。巴基斯坦人口大约1.92亿,2012年底,1.2亿人口使用蜂窝手机,天网计划也于这一年提出。不过,有媒体根据幻灯片显示时间推测,NSA可能早在2007年就开始研发机器学习。
和典型的现代大数据商业应用相似,天网计划搜集元数据并存储在NSA云服务器上,提取相关信息,然后运用机器学习为某个目标行动识别线索。除了处理输入计算机的移动电话通话数据(所谓「DNR」,比如时间、通话时长、谁和谁通话等),天网计划也搜集用户定位信息,创建详细的行动资料。关闭移动手机会被标记为一次躲避大众监控的尝试。交换SIM卡(用户天真的相信这招能防止被跟踪)也会被标记。甚至交换手机也会被侦测和标记到。给定整套元数据,天网将用户典型日常事务拼凑起来——谁一起去旅行,和朋友过夜等等,总之,NSA机器学习算法使用了超过80%的资料来评估用户的恐怖分子程度。
类似贝叶斯垃圾邮件过滤系统的机器学习算法
训练机器学习算法就像训练一个贝叶斯垃圾邮件过滤系统:输入已知的垃圾邮件/非垃圾邮件,算法从这些「基准事实(ground truths)」获知如何正确过滤垃圾邮件。
天网计划的一个关键内容就是以同样的方式给机器算法输入「已知恐怖分子(known terrorists」的数据,教会算法识别相似资料。根据披露的NSA文件,天网使用一套「已知情报员」作为基准事实,默认假设余下的人无辜。
天网的分类算法分析了元数据和基准事实,然后根据每个人的元数据对其进行评分。旨在实现真正恐怖分子得分高,余下无辜的人得分低。为此,天网算法使用了随机森林算法,这是这类大数据应用普遍采用的算法。这种随机森林方法使用了随机训练数据集的子集来建造决策「树」的「森林」,然后把不同决策树做出的预测综合起来计算平均值。天网算法使用了每个移动电话用户80%的内容并且给每个人打分——就像一个垃圾邮件过滤系统。然后,天网选择一个阈值,高于这个数值的用户被归类「恐怖分子」。
批评四起
据著名科技博客媒体arstechnica新近发表的一篇文章指出,根据新闻调查局(Bureau of Investigative Journalism)报道,2004年以来,巴基斯坦被无人机袭击死亡的人数大约在2500到4000之间,其中绝大多数被美国政府归类为「极端分子」。文章大胆推测,有了算法后的接下来几年,巴基斯坦无数无辜的人或许已经被「科学上站不住脚」的算法误贴上恐怖分子标签,可能死于非命。简言之,这篇文章认为,机器学习算法可能是最终杀人名单的重要参照。
NSA使用了机器学习———辅助(还是替代?幻灯片里并未说明这一点)——人类推理和判断。不过,从当时泄露的情报来看,无人机杀人目标通常部分来自元数据分析和电话追踪。2014年5月,前NSA局长Michael Hayden曾直言不讳地说,『根据元数据杀人』。
正是基于这一大胆推测,人权数据分析组织(Human Rights Data Analysis Group (https://hrdag.org/))的数据科学家和研究主任Patrick Ball对NSA的机器算法运用进行了强烈批评。这位曾经给战争罪法庭出示过专家证据的专家形容NSA的分析方法「乐观得可笑」,「全是胡说八道」.
误认率是个大问题
据arstechnica文章,Ball指出NSA的机器学习算法运用有两个大问题。首先,误认率是一个难以解决的大问题.
NSA评估天网时,使用的是随机选择10万人组成的子集以及7个恐怖分子组成的已知组。然后,NSA训练学习算法,训练过程中给系统输入6名恐怖分子数据资料并让系统找出第7位恐怖分子。
Ball解释说,首先,用来训练和测试模型的「已知恐怖分子」少得可怜。如果训练模型和测试模型使用了相同的数据资料,那么,他们的拟合评估就完全是胡说八道。通常实践会有一些训练过程之外的数据,这样测试就能囊括模型从未未见过的数据纪录。没有这一步,分类拟合评估的乐观性会很荒谬。
原因在于,10万公民是随机挑选的,而7个恐怖分子来自已知簇。随机选出少于总人口0.1%的小子集,公民的社交图表密度被大幅降低,但「恐怖分子」簇仍然是相互关联的。经得起科学推敲的统计分析会要求NSA在随机选出子集之前,将恐怖分子与人口数据集混合起来——但是,由于恐怖分子数量太小,这种做法不切实际。
或许听起来像只是个学术问题,但是,Ball说,实际上正在高度损害结果质量,而且最终会损害分类准确性以及将人们识别为「恐怖分子」的正确性。
假如允许存在50%的误放率(真的「恐怖分子」),NSA的0.18%误认率仍将意味着无数无辜人会被误认为「恐怖分子」并且有潜在被杀可能。甚至连NSA最乐观的结果,0.008%的误认率,仍会导致许多无辜人的死亡。对于传统商业应用来说,0.008%的误认率是非常低的。但是,巴基斯坦人口的0.008%仍然意味着1.5万的潜在人口会被误认为「恐怖分子」并且成为军方打击对象——更别提无辜的旁观者或者碰巧碍事的最先响应者(指的是在紧急事件时出现的工作人员,包括医务人员,消防队,警务人员等——译者。)
其次,更大的问题是,模型会完全忽略那些与用来训练模型的「真实恐怖分子」具有统计差别的「真的恐怖分子」。
机器算法没问题,算法找的是「信使(courier)」(不是恐怖分子)
Arstechnica文章一出,有作者在《卫报》撰文回应表示,arstechnica这篇抨击天网计划的文章根本就是搞错靶心。
一方面,NSA的这个机器学习算法不是用来找恐怖主义分子,而是信使(courier)。信使并不等同于恐怖分子——它是指一种特定类型的代理人。恐怖组织有理由对数字通信持谨慎态度,所以很多消息仍然靠信使来传递。本拉登就广泛地利用情报员传递信息,而且也正是通过其中一个情报员——Abu Ahmed al-Kuwaiti (化名)——本拉登才被找到。
如果你对机器学习一无所知,或者忽略这套算法的真正目标,分析结果似乎很糟糕。事实上并非如此。…… 算法被训练用来识别『传递情报的人』……身为记者,Ahmad Zaidan与基地组织人员连接紧密,至少在两个场合下采访过本拉登。Ahmad Zaidan就是一个经常来往于恐怖基地,与基地组织人员交流,传递信息的人。 如果这套算法就狭隘地用于『侦查恐怖分子』或者『鉴别自杀式炸弹』,那么,The Intercept可能切中要害。然而,并非如此,训练这套算法的目的是找出那些与基地组织来往密切、有可能携带有用情报的人。不管Ahmad Zaidan(半岛电视台驻伊斯兰堡总编辑,泄露的幻灯片显示,机器学习算法给他的评分最高——译者)是不是在充当记者,在算法既定目标的语境下,算法对Ahmad Zaidan的识别完全无误。
另一方面,《卫报》这篇文章的作者指出,Arstechnica文章作者和Intercept错的最离谱的地方在于夸大了NSA对机器算法结果的依赖程度。
上图清楚地表明这些仅仅是初步结论。标题将结论总结为:『我们走上了正确的道路,但是还有很多工作要做。』这是情报人员探测系统正在进行的试验,然而两家媒体不仅妄自将其视为已经部署的系统,而且还暗示该系统用算法得出了无人机打击名单。当然,对此,我们无法举出反证,但是也没有任何证据可以支撑两家媒体的观点。 实际上,你可以将算法分析的结果与其他情报相结合,这正是美国国家安全局正在做的事情,以下一张幻灯片显示『情报人员机器学习模型』仅仅是一套大得多的数据分析系统中——用于确定打击目标——很小的一部分。而且到头来,数据分析又是更大的情报分析系统的一部分。没有人因为简单的算法而丧命,美国国安局不会蠢到这个地步,否则巴基斯坦在地图上已经不存在了。
殊途同归
Courier意指信使,送情报人,本身是个价值判断比较弱的中性表达。如果认定courier真的仅仅是NSA用来找出恐怖分子的一个步骤,与最终死亡名单无关,那么,用机器学习算法来识别信使,更多的是个技术问题(「已知信使」的数据问题)。
但是,如果识别信使(courier)意味着法律后果甚至战争后果,与恐怖分子下场无异(比如,死刑或死于非命),那么,这种价值判定会是机器学习算法无法胜任的重担。从法治状态来说,这就好比实施帮助行为与最后构成帮助犯是两码事,客观上的帮助行为到最终承担法律后果的帮助「犯」,还隔着很长一段距离:不仅需要填充更多的法律构成要件(比如,主观故意),还需要更加复杂的程序过程,比如,证据证明水平至少要达到「排除合理怀疑」。这些问题无法简化成算法概率。
但是,正是在NSA会如何处理机器算法结果,如何对待被识别出的信使这个节骨眼上,大家都没有直接证据,于是,有的大胆向左走,有的保守往右转。不过,值得庆幸的是,争议各方虽在细节上纠结,但是,大家都认为NSA天网计划是无耻的,除了技术问题,有太多值得谴责的地方,比如,隐私权以及法律道德问题。
本文根据arstechnica、卫报和The Intercept综合编译,参与:微胖,Forever Chen