我们拿什么拯救正身处险境的孩子?算法!

编译 | 程耀彤、Rik

来源 | 纽约时报杂志

2016 年感恩节后,周三下午 3 点 50 分,有人拨通了匹兹堡虐待和忽视儿童热线。

在办公室的小隔间中,Timothy Byrne 听一位幼儿园老师讲述了一个三岁孩子告诉他的事情。这里以前是一家工厂,现在是阿勒格尼县警察局以及儿童青少年和家庭服务工作办公室(以下简称 C.Y.F.)。

小女孩说,母亲的一位男性朋友在她家中,「弄伤了头,他在流血,还在地板和浴盆上摇晃。」据这位幼儿园老师说,他已经从新闻里得知这位男性朋友已经因为用药过量,死在家中。

根据案件记录,Byrne 搜索了部门的电脑数据库,找到了有关这个家庭的一些资料。

有多项针对该家庭的指控,可以追溯到 2008 年:父母滥用药物、卫生状况不佳、家庭暴力、食物供给不足、身体护理和医疗疏忽以及来自叔叔的性虐待(涉及女孩两个姐姐中的一个)。

不过,这些指控都没有得到法律支持。

尽管发生了上面那件耸人听闻的事情,但是,目前没有法律要求社会工作人员前去调查家庭状况。

关闭文档之前,Byrne 不得不评估孩子未来生活状况的风险指数。

像他这样的工作人员,几乎每天都能听到比这更令人震惊的儿童身处危险的故事。他在计算机中输入:「低风险」。

会不会威胁儿童的直接安全?他必须勾选一个选项,结果是「没有安全威胁」。

如果这一结果完全由 Byrne 决定,故事可能就到此为止了。

过去,这些筛选人和司法辖区的主管人员有权作出最后决定。Byrne 本来会过滤掉这个电话。阿勒格尼县每年会收到 14,000 份指控,大约有一半的指控都会被过滤掉,不被关注。电话指控中,有些可能涉及针对儿童身体的暴力行为,有些仅仅是一些心怀不满的房东、无监护权父母或唠叨邻居的抱怨。

2015 年,全国共收到 400 万项指控,有42% 案件涉及 720 万名儿童)的指控被过滤掉。根据上,既有合理的法律推理,也会基于判断、意见、偏见和信仰。

然而 2015 年,更多的美国儿童死于虐待和被忽视。据官方资料,死亡数字为 1670 人,但也有人说,实际人数是这个数字的两倍,比死于癌症的儿童数量还要多。

这一次,决定指控是否被过滤掉,并不是 Byrne 一个人。

2016 年 8 月,阿勒格尼县成为第一个吃螃蟹的司法辖区:他们允许预测分析算法为每一通投诉电话的处理结果(选出还是 pass 掉),提供备选答案,以更好地识别出最需干预的家庭。在此之前,预测性分析多用于信用报告、股票的自动买卖等。

所以Byrne 的最后一个工作步骤,还需要点击阿勒格尼家庭筛选工具的图标。

几秒钟后,他的屏幕显示了一个垂直的颜色条,底部绿色 1(最低风险),顶部红色 20(最高风险)。

评估建立在 4 年电话投诉统计分析基础上,使用了监狱、精神病服务、公共福利、药物和酒精治疗中心等机构的 8 个数据库中的 100 多个标准。

这个 3 岁孩子的家庭最终得分 19 分。

究竟哪些背景因素,导致了筛查工具将它标记为未来有虐待和忽视的风险,尚无法确定。但是,仔细阅读这些文件,我们发现:

这位母亲正在参加戒毒治疗中心;曾被指控持有毒品而被捕入狱;小女孩的三个父亲和她的两个姐姐都有重大毒品或犯罪史,包括暴力指控;年长的兄弟姐妹有终身残疾;两个年幼的孩子已经被诊断出发育或心理健康问题。

在迷宫般的数据库中找到有关这个家庭的所有信息会花费 Byrne 很多时间,但是,筛选员被要求在最多一个小时内做出决定。

筛选员无法知道哪些因素,或哪些因素的组合,最能预测未来的不良后果。然而,算法在几秒钟内给出了得分。

现在,尽管 Byrne 最初持怀疑态度,但是,高的分数会促使他和上级标记这个案子,以便进一步的调查。24 小时内,一位 C.Y.F. 工作人员必须见见这位母亲,看看 19 分的原因在哪里。

几十年来,关于如何保护儿童不受虐待和忽视的争论,主要集中在哪些补救措施最有效:向父母提供服务,帮助他们解决问题?还是应该让孩子尽快离开家? 如果父母被隔离了,孩子是否应该与亲戚或养父母住在一起?

不过,两个开创性的社会科学研究提出了另一个思路。

从 2012 年开始,南加州大学 Emily Putnam-Hornstein 和新西兰奥克兰理工大学教授 Rhema Vaithianathan 提出的问题是:哪些家庭的风险最大,需要帮助?

「你知道吗,你提供的服务很好,但是,你可能将服务提供给了错误的家庭,」Vaithianathan 告诉我。

Vaithianathan,50 岁出头,小时候就从斯里兰卡移民到新西兰; Putnam-Hornstein,比他小十岁,已经在加州生活了多年。

两人都对使用公共数据库为公众服务的前景抱有热情。

三年前,他们被要求调查预测分析,如何能够提高阿勒格尼县处理虐待指控的能力。最终,他们发现自己关注的是电话筛选过程。一系列悲剧之后,他们发现在这些悲剧中,孩子们大多在电话指控被 pass 掉后死去的。

这是每个儿童福利机构的噩梦。最严重的一次事故发生在 2011 年 6 月 30 日。

当时,消防员们接到了火警电话,大火发生在位于匹兹堡市东部 McKeesport Boulevard 的一个三层公寓大楼上。当消防队员把锁着的门砸开后,他们在卧室一堆衣服下面发现了 7 岁的 KiDonn pollford - Ford。显然,他是在那里躲避烟雾。

KiDonn 的四岁的弟弟,KrisDon williams - Pollard 躺在床下,没有了呼吸。两天后在医院去世。

他们发现,孩子们被他们的母亲,27 岁的 Kiaira Pollard 单独留下了。那天晚上,她要去做脱衣舞娘。

邻居们说,她是个好妈妈,大一点的男孩成绩不错。

对于 C.Y.F. 来说,这场悲剧中最让人沮丧的部分是:该部门接到了无数关于这个家庭的电话,却把电话都 pass 掉了,认为不值得对其进行全面调查。

是筛查员不称职?不,Vaithianathan 说。

他花了几个月的时间与 Putnam-Hornstein 一起挖掘这个县的数据库。基于 2010 年 4 月到 2014 年 4 月间的所有 76,964 项虐待指控,他们搭建出了算法。

「筛查员有非常多的数据,但他们很难判断哪些因素是最重要的。」她说。

一个打给 C.Y.F. 的电话中,可能涉及很多因素。比如,可能有两个孩子,一个被指控的行凶者,还有妈妈,家里可能还会有另一个成年人。所有这些人都有可供调查的历史记录,但是,人类大脑并不擅长驾驭和理解所有数据。

她和 Putnam-Hornstein  将数十个数据点联系在一起(电话指控出现之前,县里掌握的所有家庭每一个数据信息),预测孩子们的命运。

结果令人吃惊和不安:48% 的低风险家庭正在接收干预服务,而 27% 的高危家庭被过滤掉了。2010 年至 2014 年期间,在打给 C.Y.F. 的 18 个电话中,由于父母虐待而后来导致儿童死亡或严重受伤的,8 例(44%)被筛查为不值得调查。

Rachel Berger 是一名儿科医生,也是国匹兹堡儿童医院虐待儿童研究中心负责人,领导着一项旨在消除儿童虐待和忽视致死的联邦委员会研究。

问题不在于大海捞针,而是在一堆针中找到合适的针,她认为。

「所有这些孩子都生活在混乱之中。如果面临诸多危险因素,C.Y.F. 如何挑选出最危险的因素? 你肯定不会信任充满大量主观性的保护决策。这就是我喜欢预测分析技术的原因。它最终带来了一些客观和科学的决定,这些决定可能会难以置信地改变人的生活。」她说。

算法促使 C.Y.F. 调查上述那位三岁小孩的家庭,之后,一位名叫 Emily Lankes 的工作人员敲响了她家的门。

这座饱经风霜的两层砖砌建筑周围,环绕着许多被夷为平地用木板封起来的房屋。

没有人回答。Lankes 接着开车去了孩子的幼儿园。小女孩看起来很好。Lankes 打电话给孩子妈妈。这个女人反复问她为什么要接受调查,但同意了第二天下午的走访。

Lankes 再次来到小女孩家中,发现家里没有家具,也没有床,尽管这位 20 多岁的母亲坚持她正在保护那些孩子,孩子们都睡在亲戚家里。

所有的电器都是好的,冰箱里有食物。母亲的性格很亢奋且反复无常,但她坚持认为自己没有用过毒品,没有去过治疗中心。

这三个孩子都表示,不会担心母亲怎么照顾自己。Lankes 仍然需要与这位母亲的治疗中心来确认相关事宜,但目前看来,算法似乎被三振出局了。

为了避免公共政策中出现的预测错误,预测分析法应运而生。

然而在刑事司法中,分析法现在已经被确立为法官和假释委员会的工具,这使得算法运作本身的保密性激起了公众更为强烈的不满,因为大部分算法是由私营公司所开发、销售与严密保护的。

争论矛头主要指向佛罗里达州的 2 家公司:非营利组织 Eckerd Connects,及其营利性伙伴 MindShare Technology。他们的产品叫 Rapid Safety Feedback,是一种预测分析软件包。

据该公司称,其客户包括康涅狄格州、路易斯安那州、缅因州、奥克拉荷马州和田纳西州的儿童福利机构。

上个月初,伊利诺斯州儿童与家庭服务部政府宣布,将停止使用该公司的产品,此前他们已经支付了 36.6 万美元。项目终止的部分原因源自一桩儿童死亡案件,该公司的产品没有将其标记为高风险事件,而 Eckerd 和 MindShare 在事故发生后拒绝透露有关产品算法的部分细节。

不过,由 Vaithianathan 和 Putnam-Hornstein 所共同开发的 Allegheny 家庭筛选工具(Allegheny Family Screening Tool)则不然:它属于 Allegheny 县政府。其运作方式是公开的。其筛选标准可在学术出版物中查到,当地官员也会对它吹毛求疵。

在采用该系统前,政府在市中心匹兹堡举行了一次公共会议,邀请了律师、儿童权利倡导者、为人父母者,甚至包括之前被收养过的儿童。他们的问题都很尖锐,不仅关于学术界,也与县政府的管理者有关。

「我们试图行事正确,做到公开透明,并与社会各界讨论事情的进展,」Erin Dalton 说,她是该县的人力资源部副主任,也是该县数据分析部的负责人。

她同 Allegheny 项目的其他参与者都表示,公共机构在采购算法时往往把控不严。

「这让人担心,」Dalton 告诉我,「因为那些公益性领导人生怕丢了工作,因而倾向于快速签单。他们不会做那么复杂的产品评估。」

声讨这类算法的另一个着眼点落在了预测未来行为上。

反对者认为,对于哪些家庭应当受到调查,其评判标准应该仅立足于该家庭所受到的指控,而不是基于对未来事件走向的预测。

在 2016 年举行的白宫会议上,纽约儿童服务机构的行政专员 Gladys CarrióN 就儿童寄养中心问题发表了讲话,表达了对儿童保护机构使用预测分析软件的担忧。

她说:「这让我害怕得不得了。」尤其是在公民自由权的潜在影响方面。「我担心帮助儿童的初心会助长问题产品的扩散。」

但在匹兹堡,那些倡导父母、儿童和公民权利的受访者都表示,C.Y.F. 对方案的实施考虑得很周全。甚至连宾夕法尼亚州的美国公民自由联盟(ACLU)也不吝惜溢美之词。

「我认为他们做了很深入的检查工作。」Sara Rose 说,她是 ACLU 在匹兹堡的一名律师。

「他们只让检查员使用这些预测分析软件,让他们决定哪些电话需要调查,哪些儿童需要关注。去别人家里做调查或有冒犯,但至少不需要强行将孩子带走或强迫家庭接受服务。」

对预测分析在儿童福利方面的第三个指控是最为强烈而令人不安的。

表面上,这些算法是为避免人为判断失误而设计的。但是,如果算法使用了充满偏见的数据,那该怎么办?

人们普遍认为,许多数据都暗含着对人种的根深蒂固的偏见。(就在上个月,纽约市议会投票决定,将对该市算法使用中的偏见进行详细研究。)然而,值得注意的是,Allegheny 的经验表明,在权衡偏见方面,其筛选工具只是没有人为检查那么糟糕而已,至少在某些方面是如此,比如预测哪些儿童最可能受到严重的危害。

「这是一个难题。」Dalton 说。

「算法所依据的所有数据都是有偏差的。相对而言,我们的系统对黑人孩子的监视更多,对白人孩子的监视更少。我们的调查标准与虐待无关,与是否受到指控有关。」

2015 年,黑人儿童占 Allegheny 县所有虐待热线来电的 38%,按照我们之前根据其人口数量所做的预测,这一数字是其 2 倍。他们因虐待而被安置在家外的比例更是不成比例:2015 年,每 1000 个居住在该县的黑人儿童中,就有 8 个被安置在家外,而白人儿童中只有 1.7 个。

圣路易斯州华盛顿大学社会学布朗学院教授 Brett Drake 的研究认为,在美国各州儿童福利机构所调查的黑人家庭中,导致黑人儿童更易流离失所的原因不能归咎于偏见,而是因为其贫困率更高。

同样,由 Putnam-Hornstein 等人在 2013 年所做的一项研究发现,在加利福尼亚州,黑人儿童被控受虐和被送去寄养的数量是白人儿童的两倍多。

但是,在调整了社会经济方面的因素后,她发现,相较于白人贫困儿童,贫穷的黑人儿童实际上更不可能成为受虐指控对象,或是被送往寄养家庭。

所有密切关注儿童福利问题的人都会同意,所有陷入儿童虐待或寄养危机的家庭,普遍都要归于贫穷。

当我与社会工作者们一道,走访家庭并参加家庭法院的听证会时,我看到白人家长与黑人家长一样多——而他们都很贫穷,生活在该县最差的社区中。

较为贫穷的人更可能被纳入刑事司法系统,也更需要公共援助,在公立诊所接受心理健康和药物上瘾方面的治疗——所有这些数据都由 Vaithianathan 和 Putnam-Hornstein 的预测分析算法进行解析。

Allegheny 县人力服务部主任 Marc Cherna 自 1996 年起就负责监督 C.Y.F.,比该县任何官员的在职时间都长。

他承认,在他的工作中,偏见或许是不可避免的。在采用该产品前,他对预测分析项目进行了独立的伦理审查。其结论是,实施该项目是合乎道德的,而不实施它才可能不道德。

报告中说:「如果使用的是最准确的预测工具,那么很难想出一条伦理方面的反对论据。」通过在筛选过程中加入客观的风险措施,该筛选工具被 Allegheny 县的许多官员看作是一种减少偏见问题的工具。

「我们知道许多决策都存在种族偏见,」C.Y.F. 副主任 Walter Smith Jr. 说,他是一位黑人。

「存在各种各样的偏见。如果我是一名筛选员,成长于一个酗酒之家,那么我在检查时可能会更加看重父母的酒精使用量。如果我的父母很暴力,我就可能会更加关心暴力问题。预测分析提供了一个机会,可以让我们更加一视同仁地看待所有这些变量。」

2 个月前,Emily Lankes 造访了一名儿童的家庭,该名儿童曾目睹一次药物过量致死事件。从那之后,她便一再试图重新联系上那位母亲,以完成自己的调查。

她一遍又一遍地给他们打电话、发短信,甚至直接登门造访。而这些尝试都没有成功。她还给治疗中心打过 6 次电话,想确认该名母亲是清醒的,但都无人接听。

最终在 2 月 2 日的早晨,Lankes 拨出了第 7 通电话。她了解到,该名母亲没有通过最近三次的药物试验,她的尿液中含有可卡因和鸦片。

然后,Lankes 与她的导师 Liz Reiter,同 Reiter 的老板及一个由其他管理人员与社会工作者醉成的小组,聚在一起商讨解决办法。

「将孩子从家里接走,这从来都不是一个容易的决定,即使我们知道这样做对他们最好,」Reiter 告诉我。

但是,她说,「当我们看到有人在使用多种药物时,我们需要保证孩子们的安全。如果不能进到他们家里,就会开始担心事情的进展。这是一个警示。」

该小组决定向家庭法院的法官申请一份紧急监护授权书。到下午晚些时候,他们得到了授权,来到了那名儿童的家,一位警官在那里与他们会面。

最大的孩子帮他们开了门。母亲不在家,但三个孩子都在,他们和年迈的曾祖父在一起。在过去的 2 个月里,Lankes 终于联系上了他们的妈妈,电话那头传来一阵嚷嚷,声称她们随意入侵别人的家庭。

不过,这名母亲告诉了 Lankes 有哪些家庭成员可以暂时照看孩子们。打包衣物,穿上冬装,孩子们跟 Lankes 上了车。就这样,政府授权一个陌生人把他们从母亲身边接走了。

在第二天的一次听证会上,首席官员命令那位母亲在孩子们回来之前先戒毒。她参加的戒毒所建议她进行康复治疗,但被她拒绝了。

「我们不能与她经常联系,「Reiter 最近告诉我,「很明显,她现在不方便沟通。目前两个最小的孩子正与他们的爸爸在一起。他们都表现得非常好。」他们 13 岁的哥哥与曾祖父住在一起。

12 月,距离 Allegheny 家庭筛选工具的使用已经过去了 16 个月,Cherna 的小组和我就预测分析程序如何影响筛选决策的问题,分享了一些初步情况。

到目前为止,他们发现,与实施该程序前相比,黑人和白人家庭之间基于风险评分所计算出的待遇差别降低了;而被推荐调查的低风险案件的比例,也已经从之前的将近一半下降到现在的大约三分之一。

这意味着,社会工作者在运转良好的家庭调查方面花的时间更少,毕竟这些家庭不需要被政府机构介入。与此同时,高风险电话的筛选频率增加了。虽然只提高了几个百分点,但在儿童福利领域,这是巨大的进步。

为了确定这些调查结果能否经得起推敲,Cherna 找来了斯坦福大学卫生政策研究员 Jeremy Goldhaber Fiebert 来独立评估该程序。

「到目前为止的初步分析显示,该工具的作用范围似乎并没有越界,」Goldhaber Fiebert 说。特别是,他告诉我,被筛选出的孩子更可能有服务需求,「所以他们的筛选就像是在那些真正有风险的孩子之中进行的。」

由于第 1 年的运作情况较好,更多高风险案件被标记为待调查项,Allegheny 的家庭筛选工具吸引了全美各地的儿童保护机构。

科罗拉多州道格拉斯县,位于丹佛和科罗拉多斯普林斯之间,正与 Vaithianathan 和 Putnam-Hornstein 展开合作,在当地部署预测分析程序;而加利福尼亚社会服务部则委托他们对全州进行初步分析。

「从匹兹堡的早期运营结果来看,预测分析技术似乎是儿童保护领域在过去 20 年间最令人兴奋的创新之一。」华盛顿大学研究员 Drake 说。

他最近参与撰的写一份研究报告显示,三个美国儿童中就有一个会被儿童福利机构列为 18 岁以下的调查对象,他认为各机构必须尽一切可能来提高他们的关注度。

即使在伊利诺斯州也是如此,该州儿童与家庭服务部主任 B.J. Walker 正在终止与 Rapid Safety Feedback 的开发商合作。然而预测分析是不会结束的。

Walker 在 12 月告诉我:「我仍然认为这是一个很好的决策工具。」Walker 知道 Cherna 和 Dalton,也看到了他们在开发家庭筛选工具过程中的漫长探索。

「他们做得很细致,」她说,「他们对于透明度的追求向来值得称赞。而透明性也是一把双刃剑,因为你也会犯错,也会搞砸,你想要做出一些改变。」

Cherna 和 Dalton 已经开始监管 Allegheny 县的算法重组工作。到目前为止,他们已经将该程序在预测不良后果方面的准确率从 78% 左右提高到了 90% 以上。

此外,呼叫筛选员及其主管现在被赋予了更少的自行决定权,不能将个人意志凌驾于程序推荐之上,而是得根据其专业判断,在过滤掉最低风险案件,不漏掉风险最高的案子。

「很难改变检查员的思维定势。」Dalton 告诉我。

「这是一种非常强大的、深入人心的文化。他们希望关注于直接的指控,而不是孩子们在未来一两年内可能面临的风险。他们称之为临床决策。我称之为某人的观点。需要时间才能让他们相信,电脑屏幕上的分数是真实可靠的。」

产业算法应用安全防范
返回顶部