机器学习能让最高法院判决更透明

长期以来,预测(美国)最高法院判决结果一直是政治学家,律师和法律迷们最爱的游戏。

人们已经搭建了不同统计模型,预测性算法,流程图,还使用机器学习来猜测判决结果。一些模型还是比较可靠的。有些预测命中率达到75%。不过,人类预言者要比这些模型更让人印象深刻。

机器之心注解:法律学者Josh Blackman说,他和同事开发的计算机算法能以7成的正确率预测美国最高法院大法官是否将会维持还是推翻下级法院的裁决。算法(PDF)使用了超过90个变量,源代码已经发布在Github上。

有一个人,他被FiveThirtyEight网站视为「世界顶级最高法院判决预测者」,连续数年赢得了FantasySCOTUS(类似最高法院版本的梦幻联赛,让玩家预测判决结果——译者),准确率高达80%。

不过,最高法院还有另一片可供计算机大展拳脚的天地,亦即找出仍不清楚的判决信息,即使判决已经做出,也就是未经署名的判决意见书。最高法院的上一个开庭期,有8份未署名的判决意见书,已经超过该开庭期案件量(66件)的10%。

机器之心注解:Term,开庭期。联邦最高法院开庭时间为每年10月的第一个星期一到翌年6月中旬 。从十月到年底,大法官们忙着挑选要审理案子。来年1、2月,案件选出后,庭审逐渐密集,偶尔会有新闻爆料。春天一过,庭审接近尾声,大法官们开始忙着撰写判决意见。一旦进入六月,绝大多数重要案件判决结果会接连宣布,这段时间,新闻记者会累成狗,最高法院也会成为当之无愧的头条。随后进入为期三个月的夏季闭庭期,不再审理案件。鏖战六月后的新闻记者终于可以松口气,媒体开始回顾总结,展望新一轮开庭期。

去年,Adam Liptak在给《纽约时报》的撰文中写道,不署名的原因很可能是因为纠正的错误太引人注目,会让法官有更多考量,然而,这个数字确实让我们看到法院工作的某种趋势。 比如,挑战针对自己判决的那些犯人输了。或者说被诉不道德行为、负责法律实施的官员赢了。

一位MIT2016年计算机科学毕业生 William Li说,未署名判决书,或者说合议庭一致裁判(Per curiam decisions),可能已经被法院,最高法院和地方法院滥用了。

他说,这就是一种躲在匿名面纱背后的手段,一种摆脱责任的机制。

机器之心注解:Per curiam decisions,它是法院认为案件事实问题争议不大时,越过庭审环节,直接作出的裁判。即决命令很少说理,或者根本不说理,也不用署名。Opinion of the Court和Per curiam Opinions不同。美国最高法院一般要写一个统一的意见书。这个判决意见书无论是全体法官一致同意、还是多数法官同意,都被称为法院判决( opinion of the court),因为是多数意见,也叫做Majority Opinion。有些法官尽管同意判决结果,但可能不同意断案的根据和逻辑,便会另外出具协同意见( concurring opinions)。那些根本不同意判决决定的法官也发表自己的意见,通称为少数意见书( minority opinions),一般是各自撰写自己的异议意见书(dissenting opinion),都是需要署名的。

因此,Li和他的同事搭建了一种算法,用来判定到底是哪个法官撰写了未署名的判决意见。2012年,他们开始这项研究工作,当时正值罗伯茨大法官在举国关注的奥巴马医疗案最后时刻改变主意而导致坊间流言四起的时候——罗伯茨大法官当时的举动似乎是在已经撰写了异议意见的大部分内容后,才撰写完多数意见的。Li和他的同事希望找到证明这一猜测的办法。

他们结合了统计数据挖掘和机器学习方法,搜集了每位大法官过去多年署名判决意见,当做个人写作风格的数据资料。机器人程序分析这些判决意见,提取出带有大法官个人独特风格的单词,短语以及句子结构。然后,系统会赋予那些带有个人风格的术语更大的权重,因此,它就清楚扫描每份判决书时,自己需要搜寻的是什么。系统发现,罗伯茨频繁使用「pertinent」这个词。

机器之心注解:John G Roberts,美国最高法院首席大法官,也是开庭时落座最中间座位的那位大法官。

Li 说,「罗伯茨大法官似乎倾于用『here』作为句子的开头语,用『the first place』为一句话做ending。布雷耶大法官则频繁使用『in respect to』。斯卡利亚大法官的一个象征性用语就是『utterly』,通常用『of course』作为一句的开头。似乎确实存在风格不同的署名方式。」

机器之心注解:

Antonin Scalia:美国最高法院大法官,也是美国媒体最喜欢报道,争议最大的大法官。

Stephen Breyer:美国最高法院大法官,学者型大法官,著述颇丰,被波斯纳誉为最善学习的大法官。

计算机可以检测到的鲜明风格署名,通常很难为人类察觉。比如,机器人系统发现,金斯伯格和索托马约尔两人的判决意见关键词存在区别,这是人力很难发现的。金斯伯格经常使用「notebly」、「observed」和「stated」,而索托马约尔更喜欢「observes」,「heightened 」和「lawsuits」。

机器之心注解:

Ruth Bader Ginsburg:美国最高法院女大法官,知识产权权威,捍卫女权。Sonia Sotomayor:美国最高法院女大法官,第一位拉丁裔大法官,出身贫民窟的励志典范 。

其他几位大法官:Anthony Kennedy:美国最高法院大法官,也是一些重要争议案件中一锤定音的摇摆票。Elena Kagan:美国最高法院女大法官,曾任哈佛大学法学院院长。Samuel Alito:美国最高法院大法官。Clarence Thomas:美国最高法院大法官,也是美国第二位非裔美国人大法官。

为了测试算法准确性,Li和同事给系统输入了117份有签名(但他们刻意隐藏署名)判决意见书(因此他们是知道正确答案的)。机器人系统猜中了95份,命中率为81%。就奥巴马医疗案中罗伯茨大法官署名问题来看,计算机给出的答案是,几乎可以肯定罗伯茨撰写了多数意见,斯卡利亚撰写了反对意见。

Li认为自己模型准确率还算「尽如人意」,但也算不上完全意外,部分原因在于他预料到了这一点。他说,这类分析工作可以追溯到上世纪60年代。

比如,1964年,数学家Frederick Mosteller 和 David Wallace用统计方法解决《联邦党人文集》的作者争议。著作《Inference and Disputed Authorship》还登上了当时的《时代》杂志封面。尽管他们的方法在当时具有开创性,Mosteller和Wallace却只能使用(在今天看来)极小的数据库。如今,机器学习算法越来越成熟,计算机的计算能力也越来越强大,计算机科学家使用的数据量也是海量级别。

Li说,「能够轻易获取这么多数据和作者标记好的数据,这很棒。」「搜集所有大法官判决意见以及其他资料也理应简单。」

表面看起来,这个发现很陈旧,但是,它确实表明计算机科学家所能做的事情已经有了深刻变化。有了足够数据,计算机能做的就不仅限于预测作者是谁。比如,你可以想象机器人法官做出判决,判决书颇具某个大法官之风。将机器学习和语言生成应用到一组足够强健的数据组中,理论上,即使在人类大法官去世后,机器也可以延续他的判决风格继续做出判决,这才是真正的「终身任命」。(美国最高法院大法官是终身制,除非自己辞职或遭到弹劾。——译者)

这并不是说,这是个好主意。但它确实让人感兴趣。因为在几乎所有去乌托邦噩梦中,机器人都在挥舞着机器武器,很暴力。一个机器人的最高法院大法官——或者至少说,机器人足够能干,可以生成反映人类写作特点的判决——的潜在可能性还是有的,Li说,「但是,距离生成与人类书写的判决意见不分伯仲的判决意见,我们还有很长路的要走。对于计算机来说,挑战仍然艰巨。通过大法官的图灵测试,困难重重。」

参考文献:

http://joshblackman.com/blog/2014/07/29/the-next-evolution-of-scotus-predictions-predicting-7000-cases-over-60-years-with-71-accuracy/

  本文选自the Atlantic, 作者:ADRIENNE LAFRANCE,  机器之心编译出品,参与:微胖

入门机器学习
暂无评论
暂无评论~