Science「预测」特刊:人工智能如何帮助我们预见未来

在阿西莫夫的《基地》系列科幻小说中,天才哈里·谢顿几乎完美地预测了银河帝国的衰落和之后相当长一段时间的发展。随着近年来机器学习技术的兴起,基于数据的预测在搜索引擎、定向广告和个性化推荐等许多特定的应用领域取得了很大的发展成果,但在更加广泛的科学发现预测、政治预测、社会事件预测乃至人类文明发展的预测上,机器学习还能实现同样的成就吗?而今天我们又已经在这些领域走到哪一步了呢?今日,Science 推出了一个关于「预测(prediction)」的专题,通过多篇文章解读了上述多个领域的研究进展和面临的挑战。机器之心选择了其中几个主题进行了详细编译,其余的则进行了一些摘要介绍 (篇幅限制没有列出参考文献)。想要更详细了解该专题内容的读者可参阅:http://science.sciencemag.org/content/355/6324


序言


人类从远古时代通过萨满烟熏内脏的方式开始就一直不断尝试着预测未来。正如本专题所探讨的,预测现在是一门高速发展的科学。该文章探讨了如下问题:怎样分配有限的资源、一个国家是否会陷入冲突中、谁将有可能赢得选举或发表一篇影响巨大的论文以及在这样一个新兴领域中如何建立标准。


社会科学家和机器学习社区正在学习新的分析工具,从而从乱糟糟的数据中分离出真正有意义的模式。新工具是令人兴奋的,但是如果只是使用框架上的软件包而没有完全去理解它,那么就会导致一些灾难。这一专题的几位作者描述了平衡机器学习方法和人类因素的现实目标的重要性。


在 20 世纪 50 年代,著名作家艾萨克·阿西莫夫想象了心理史学的图景,其中计算机可以通过庞大的数据集预测帝国的兴亡。现在科学还不能完全做到这样,就像上一次美国大选那样。新闻报道和相关的报告也都描述了最新的科学技术进展,科学家们也相信随着方法的改进和验证数据源的增长,选举和其他社会实践将变得越来越可以预测。


当在多学科交叉领域中努力解决问题时,如将人类对语义的理解和能处理 TB 级数据的算法结合起来,成功似乎将会到来。研究人员可能仍然远远不能做出政策制定者所期望精度的预测,但是他们现在能够预想的情景能帮助塑造一个更好的未来。


一、预测武装冲突:是时候调整我们的期望了吗?


摘要:这篇文章介绍了预测政治暴力(political violence)的一般性挑战,特别是相比于其它类型的事件(比如地震)的挑战。什么是可能的?什么又不太现实?我们的目标是揭穿关于预测暴力的神话,以及说明这一领域的实质进展。


如果「大数据(big data)」可以帮助我们找到合适的合作伙伴、优化酒店房间的选择和解决许多其它日常生活中的问题,那么它也应该能够通过预测致命冲突的未来爆发来拯救生命。这是许多将机器学习技术应用于来自互联网和其它来源的新且大规模的数据集的研究者的希望。鉴于世界上仍还有政治暴力所带来的苦难和不稳定,这一愿景是冲突研究者在政策影响和社会控制上的终极前沿。


话虽如此,但在学术的冲突研究上,预测仍然是非常有争议的。仅有相对很少的冲突专家尝试过明确的冲突预测。此外,还没有建好的早期警报系统可以作为决策的可靠工具,尽管目前已经有一些重大努力了。


近年来,我们已经看到了一系列想要填补这一空白的文章出现,它们利用了大规模数据收集和计算分析领域内的最新进展。这些研究中的任务是预测在给定的国家和年份是否有可能发生国际或国内的冲突,并借此创建全球暴力冲突的年度「风险地图(risk maps)」。最开始的预测模型基于当时政治学领域新兴的定量方法(quantitative methodology)且依赖于简单的线性回归模型。


但是,人们很快就认识到这些模型无法捕获冲突预测的多变影响和复杂的相互作用。这种认识导致了机器学习技术的引入,比如神经网络,这是一种持续至今的分析趋势。在这些模型中,生成暴力后果的风险因素的互动是从数据中归纳式地推断出来的,而且这个过程通常需要高度复杂的模型。今天,冲突预测工作的主要主要部分仍然是在年度上的国家层面分析,也有一些研究已经将其预测的时间范围推至了未来数十年。


最近,新的可用数据和改进过的模型让冲突研究者可以理清政治暴力的时空动态(temporal and spatial dynamics)。其中一些研究可以给出月度或日度的预测。这样的时间划分需要修正已有预测模型。比如说,在 [5] 中提出的方法基于以色列-巴勒斯坦冲突的冲突事件数据。该分析使用一个区分高强度和低强度冲突的模型,基于 1996 年到 2009 年的数据生成了 2010 年的预测。另一些方法的目标是利用新类型的预测器(predictor),比如战争相关新闻报道。因为它们能够以远远更高的时间频率上扑捉到政治紧张,这些报道被证明是比传统的结构变量(structural variables,如民主的水平)更强大的战争发生预测器。


其它研究则在尝试探索暴力的地方性变化(subnational variation),不仅试图预测冲突将在何时发生,更要预测会在何地发生。空间分解(spatial disaggregation)可以让冲突预测按行政单位产生,比如区或市或任意基于网格的位置。这一领域已有的研究重点是特定的国家和冲突。比如 Weidmann 和 Ward 为波斯尼亚的内战生成了市级水平的预测,如图 1 所示。另外也有为非洲的空间网格单元(spatial grid cells)得到的类似的暴力预测 。同样,空间预测模型的复杂性的跨度可以非常大,从空间回归模型到更灵活但也更复杂的机器学习模型。



image (5).png

图 1. 波斯尼亚市级水平的内战暴力预测。(左图)1995 年 6 月在 7 个市级单位实际发生的暴力事件(暗红)。(右图)[7] 中描述的时空模型预测到的暴力(淡红)。画有斜纹的图案表示不正确的预测。尽管有 4 个市级单位的冲突得到了正确的预测,但该模型还是错过了 3 个实际发生的冲突,并错误地预测了 4 个市级单位会发生暴力。而且正如大多数冲突预测案例一样,许多区域仍然是和平的而且也符合预测(以灰色表示)。


预测的愿景和陷阱


很显然,在冲突预测领域确实出现了一些可观的进步。使用明确的和客观的统计标准,更新的方法比传统的解释性模型实现更高水平的样本外准确度(out-of-sample accuracy)。和过去的暴力案例的因果解释相反,样本外预测(out-of-sample forecasting)可以实现不用于拟合模型的事件预测。依赖于先进的定量技术的研究者也取得了具体的预测成功。比如,在 Political Instability Task Force 委托的一份报告中,Ward 及其团队提前 1 个月预测了泰国 2014 年 5 月 7 日的军事政变。


此外,在解决罕见事件预测的挑战上也取得了一些进步。标准的、现成可用的机器学习模型通常适用于不同的输出之间相对平衡的问题。而暴力与和平的预测却并不是这样的问题,其中大部分时间所检查到的单元都是和平的。这个问题可以通过不同的重采样(resampling)技术来解决,这能实现该模型的远远更高的整体预测准确度。Muchlinski 等人应用这样技术在 2001 到 2014 年的样本上预测了内战。他们的模型正确地预测了 20 次内战中的 9 次,而传统的回归模型没有预测正确。


该文献还表明以样本外预测(out-of-sample prediction)为重心有助于防止包含进可能会恶化预测表现的解释性的长列表。更一般而言,这样的分析也是一个有用的提醒:过去事件和未来事件预测的因果解释是不同但相关的实证表现的标准 。


尽管有这样的进展,但要说能拯救生命的冲突预防(conflict prevention)已经马上就能实现还是过于乐观。此外,这一领域还远远没有达到民意调查机构和经济预测机构所能接受的政策影响。为什么会这样呢?


也许最严重的问题在于在完全认识围绕和平与冲突的根本复杂性上的普遍失败。与相对结构化的机构决策设置(institutional decision-making settings,如在微观层面上的投票和消费者行为)相反,冲突过程通常包含一个难以处理的施动因素(actor)集合,这些施动因素以一种让人惊讶的而且从定义上打破规则的方式交互 。这些情形可通过基本和固有的复杂性进行特征化,其允许的是实现「模式预测(pattern prediction)」而不是准确的特定事件的经验预测。在缺乏充分了解所有理论上的组件的交互方式以及缺乏足够用于测量相关变量的数据的情况下,我们所能希望的只有在能增加冲突的概率的结构特征的基础上的风险评估(risk assessment)。因此,至少在宏观层面上,要根据之前在稍不复杂的领域(如台球、行星运动或交通系统、)或更简单的政治环境(如选举竞争)上的成功来确定未来预测的表现是无效的;在这些更简单的问题中,理论原理得到了广泛的了解,而且相关事件发生的频率也很高。


即便神经网络这样的机器学习技术能在底层数据捕捉非线性,但是地缘政治的变化改变了如国家及其边界这样的分析单位,这种改变带来了一个更基本的挑战,尤其是对于长期宏观预测来说。大多数宏观模型倾向于跟踪一组给定的现有状态到未来的属性,而忽略了领土变化的可能性,比如分裂与统一。然而,正如前苏联和南斯拉夫冷战结束带来的变化所展现的那样,这些国家的国家层面上的数据几乎没有为冷战结束后的预测提供指导。地域的变化之外,这些隐含的恒常性假设更普遍地适用于单位和因果机制效应之间的互动。这个问题阻碍了「交叉验证」的使用,这种方法会将数据集分成若干部分,其中一些是用来「训练」预测算法,还有一些是作为「抵抗(holdout)」部分,后面会用来测试算法。在一些将历史切成碎片这种做法的情况下,关于长期趋势的有价值信息会丢失,因为这种方法打乱了历史时期,把它们看成了是 等效的(equivalent)。


数据质量进一步阻碍了政治暴力预测的进展。与台球或行星运动轨迹不同,测量冲突的发生、地点和时间要难得多,而且这些预测与相当大的不确定性有关。对于许多暴力的决定因素,如经济状况,类似的问题也同样存在。即使在过去事件的统计解释测量上误差不是个问题,但它仍然对未来暴力行为的预测构成了挑战,同时还常常会降低暴力发生地点和时间预测的置信度。如果暴力测量结果与一个或更多的预测指标变量呈现系统性相关,那么会产生类型更多的严重错误。因为政治暴力往往是从新闻文章这样的次要来源(如新闻文章)编码而来的,所以高水平地暴力观察可能是源于高水平的实际暴力或者概率更高的报道(或者两者都是)。这使得预测很困难。扩大数据集——如在使用自动事件编码的几个项目中——可能加剧这一问题,因为它同样依赖次级来源。


即便在预测研究上的最近进展很有前景,我们还是要警告从理论和政策上高估其重要性的倾向。如上面所讨论,样本外预测有助于理论建设,但是,这并不意味着有效的解释必须始终是预测性的。根据达尔文的理论,一些高度依赖路径的过程只允许特定情况下的事后解释。鉴于冲突过程的复杂性特征,特别是在宏观层面,这样的解释仍然可以提供关于具体机制和政策有效性的关键信息。此外,将预测表现作为唯一有效的经验评估标准是不明智的,特别是在预测模型非常复杂和不透明,以至于尚不清楚预测成功的驱动因素是什么的情况下。例如,模型集合上的贝叶斯平均是一种优雅归纳技巧,它从竞争模型中汇聚了大量数据,但除非理顺理论上的问题,否则整体结果可能只不过是理论上的黑箱而已。


做政策相关的预测需要谨慎的原因研究还有一些。学者们给出的预测通常都假设政策制定者最要想要的是预测性的风险评估,因为这些东西能让他们通过配置预防性资源和干预减少潜在冲突。然而,这些希望假定了政策干预的效用已被广为人知。事实上,无理论的预测在不了解冲突的驱动因素的情况下很少能指导干预。因此,谨慎执行政策分析评估冲突减少措施带来的因果效用是有效政治宏观预测的先决条件。考虑到获得关键社会指标的可靠信息是有困难的,尤其在发展中国家,在许多情况下,一些基本描述和解释建模可能比预测更迫切需要。


推荐


有许多方法可以改善现有的冲突预测工作,例如,涉及到方法论和结果的沟通。在一些情况下,这需要更多用户友好的方式来呈现结果,比如报告现有和预测的趋势,而不仅仅是基于花哨估计技术的接收者操作特征(receiver operating characteristic,ROC)曲线。透明性还要求关于采样周期的关键假设和不确定性测量在多个场景中基于备选假设的情况下能被明确陈述和经过鲁棒性测试。否则,研究者的错误估计可能会传达一种错误的确定感。


为了评估新方法的附加值,分析师们需要更好地比较他们从复杂的预测机制中得出的预测与简单的基线模型。它最纯净的形式,比如一个基线模型,能简单地预测出过去没有给现在带来变化。例如,Lim 等人用一个基于 agent 的复杂模型预测了前斯拉夫种族暴力的位置。虽然该模型的预测精度乍一看令人印象深刻,进一步的检查发现,这种表现与一个在地图上随机标出暴力事件(塞尔维亚和黑山共和国除外)的模型差不多。


最终,在政治暴力这个问题上,希望大数据通过某种无理论的「蛮力」产生某种有效的预测是错误的想法。自动的数据提取算法,比如基于社交媒体的网页抓取和信号探测,可能会加剧政治紧张局势,但这并不意味着这些算法能以较高的时空精度预测低概率冲突事件。只有研究人员考虑到数据质量和代表性的局限性,大型自动编码的数据集才能发挥用处。这样一来,团队工作的人类「超级预测员」仍然能在一般政治事件预测上击败的不仅是更专业的专家,还包括预测市场和其他自动化的方法就不足为奇。


总体上看,我们坚决相信冲突预测非常有用,也值得投入研究。但是,未来的预测研究需要识别由人类系统的大量历史复杂性与偶然性导致的内在局限。如冷战的结果和更多的最近历史事件表面,像「英国退欧」和「特朗普大选胜利」这样的历史性「事件」经常会讽刺脱离语境的样本外的推算(out-of-sample extrapolation)。讨论经济发展长期预测的难度时,Milanovic 提醒我们「可以也确实会改变的变量数量,历史中(『自由意志』)人物的角色」,以及战争和自然灾害的影响是如此之大,以至于即使是一代人中最优秀的头脑所作出的大趋势预测也很少正确。


然而,同时,时空范围更有限的预测——例如预测的一个给定的处于内战的城市的短期暴力轨迹——是完全可能的,因为它们不太可能受到这些发展的影响。因此,该领域的挑战是,要在社会和政治世界固有的复杂性与我们准确预测政治暴力的能力的相关局限之间找到一个平衡点。最近收集冲突事件的非总体和空间直观(spatially explicit)的数据加快了,结果表明,在有限的时空半径内,政策相关的预测是可行的,同时潜在用处也非常大。然而,超出这些限制,大量的理论和经验的不确定性往往压倒了预测的尝试。在这样的情况下,在生成可能的情景这个任务上,预测建模作为一种启发式工具,而不是作为具体政策建议的生产工具,或许会更有用。


二、科学学领域中基于数据的预测研究


摘要:想要预测发现的愿望——提前知道将由谁在何时何处发现什么,几乎渗透了现代科学的所有方面:从个人科学家到出版商,从资助机构到招聘委员会。本文调查了「科学的科学(science of science,科学学)」的新兴和跨学科领域,以及使我们得知科学发现的可预测性的因素。而后我们将讨论改进源自科学的科学的未来机遇及科学社区中积极和消极的潜在影响。


想要预测发现的愿望——提前知道将由谁在何时何处发现什么,几乎渗透了现代科学的所有方面:从个人科学家到出版商,从资助机构到招聘委员会。本文调查了「科学的科学(science of science,科学学)」的新兴和跨学科领域,以及使我们得知科学发现的可预测性的因素。而后我们将讨论改进源自科学的科学的未来机遇及科学社区中积极和消极的潜在影响。


目前,对预测发现——对何人何时何地发现何物提前有些想法——的渴望几乎遍及现代科学的所有方面。个人科学家通常预测哪些研究问题或课题会是有趣的、有影响力的,并且可获得资金支持。出版商和资助机构评估手稿或项目意见书时,部分是通过预测其未来的影响力进行的。员工招聘委员会也会预测哪些候选人员会在其职业生涯中作出重要的科学贡献。对于通过税费资助大部分科学研究的社会大众来说,预测也是重要的。我们能使科学发现过程更有可预测性,就能将资源更高效地用于推动有价值的技术、生物医学和科学方面的进步。


尽管存在这种普遍的需求,我们对如何发现的理解仍然是局限的,并且个人、出版商、资助机构或招聘委员会做出的预测中相对来说极少是通过科学方式做出的。那么,我们如何能知晓哪些是可以预测的,哪些是无法预测的?尽管将发现与发现者相分离会存在困难,但该论文的首要关注点是科学的科学:为科学性地理解导致科学发现的社会过程(social processes)而进行一种跨学科工作。(是为了对科学哲学的现时思考及科学家如何在个别科学挑战方面取得进展,请看(1)


这种预测发现的兴趣可以向前追溯近 150 年,一直追溯到哲学家 Boleslaw Prus (1847–1912) 和经验主义学派的社会学家 Florian Znaniecki (1882–1958) 的作品。特别是 Znaniecki,在其倡议下,设立了对科学社会进程的数据导向研究。在 20 世纪的大部分时间里,该目标进展缓慢,部分是由于好数据难获取,且大部分人满足于专家评判。


今天,科学圈是一个巨大而又多变的生态系统,包含着数以百计的互相关联的研究领域,数以万计的研究人员和每年层出不穷眼花缭乱的新结果。这样惊人的体量和复杂度进一步扩大了对科学的科学研究的呼声并激发了对这种类型测量量化方法的研究,比如对过去成果的引用、新成果的产生、职业生涯轨迹、资金赞助、学术奖励等等。数字技术使得这些信息的生成量巨大,而研究人员则正在开发新的强大的计算工具来分析这些信息。举个例子,为了自动量化某些专业科学问题研究的进展,自动提取和分类论文中的相关内容。


目前普遍认为,通过挖掘这些信息所得到的预测远比专家的意见更为客观精确。书目数据库和在线平台——比如,Google Scholar、PubMed、Web of Science、JSTOR、ORCID、EasyChair、和「altmetrics,」——正在使研究人员对科学进展的深入洞见进入一个新的时代。


这些努力也带来了一个引人争议的问题:我们最终能够预测重要的发现和它们的发现者吗?就像 Yoshinori Ohsumi 的诺贝尔奖——对动物细胞的自我吞噬系统的相关工作。我们还不知道答案,但这项工作肯定会使我们在科学研究这一社会活动的理解上更进一步。举个例子,一些科学发现是很容易被预测的(图.1)。随着理论和证据的累积,很明显一个发现将迫在眉睫,就像一幅拼图中间就缺了那一小块一样。人类基因序列的确定和引力波的观测就是这种发现的很好例子。另一方面,一些发现似乎不可能被预测,因为它们可能代表了促使我们重新思考整个问题的那一小块拼图或者是发现了正在发掘的那一部分的新用法。尽管隐喻着这样的关键创新的小块有时是当下显而易见的,就像基因编辑技术,而有时这些隐喻又需要时间以使得其余的相关部分进入我们的视野,就像青霉素(第一种抗生素)的例子,我们用了 15 年才实现它。


image (6).png

图 1:多意外才能算是一项发现?


科学发现在相对于它们各自的已知知识的不可预见性这一问题上而各有不同。为了说明这一观点,我们把 17 个主要科学发现的例子从完全无法预计(如抗生素、基因编辑技术、以及宇宙微波背景辐射)到可以预知(如引力波、DNA 的结构、人类基因的编码)进行排列。


通过使用已发表成果以及科学生涯中的现代数据,科学学的研究人员们已经开始定义一些在各个领域内普遍认同的量化特征,而这些洞见正重新定义科学学可预见性的极限。以下四个领域具体体现了这些成果:对过去发现的引用量、谁得到了相关的研究职位、科学的生产力以及在职业生涯中主要发现的时机。但是,基于这些方面的工作同样也暗示了它受限于数据驱动的对科学发现的预测。


现代的文献数据库允许研究者轻松汇总和研究引用量,这提供了一种方便但也有争议的科学影响力测量方式。50 多年之前,de Solla Price (1922–1983) 在许多知名的成果中识别出了驱动引用量的基本机制,其中当前可见度和幸运事件能驱动一个正向反馈循环,这能放大未来的可见性 (4)。这种「择优依附(preferential attachment)」机制解释了论文之间的引用如此不均衡的原因,为什么有的论文能够得到比典型论文多数百倍乃至数千倍的关注。这个模型也能对一个发展中的领域内的引用积累情况能做出非常好的预测。一个带有论文的新旧程度及其固有吸引力等控制量的修改过的版本能为单篇论文的长期引用量估计提供预测,其能表明引用达到峰值的时间以及需要多少时间才能将一项发现变成一个常识 (6)。


但是,一些发现并不遵循这些规则,这些例外表明,除了可见度、运气和正向反馈,还存在更多与科学影响力有关的因素。比如说,一些论文远远超出了由简单的「择优依附」所做出的预测 (5,6)。另外还有科学中的「睡美人」:在很长一段时间内休眠不被人注意的发现,之后突然得到了很大的关注 (7-9)。一项在过去 100 年来的近 2500 万份自然科学和社会科学出版物上的系统性研究发现「睡美人」在所有研究领域都有出现 (9)。比如,爱因斯坦、波多尔斯基和罗森在 1935 年的关于量子力学的论文;Wenzel 在 1936 年关于防水材料的论文;Rosenblatt 在 1958 年关于人工神经网络的论文。沉睡的论文的觉醒可能从根本上来说是无法被预测的,部分原因是在一项发现的影响显现之前,科学本身也必须取得进步。


做出什么样的发现部分取决于谁在做这个发现以及他们接受的是什么样的科学家训练(10)。科学家生产力队伍的这些特点是受一小部分颇有声望的研究机构的博士项目驱动的,这是由用来训练大多数职业研究者的数据揭示出的。(11)作为这一优势的结果,研究议程以及少量项目的博士生人口统计学趋于驱动着科研偏好和整个生态系统的生产力构成。除了这一稳健的模式——85% 的新教员是来自博士项目到不同层次声望的研究机构——之外,到目前为止,教员安置显然是难以预测的。利用了职业生涯早期生产力、博士后训练情况、地理位置、性别方面等更多方面数据的模型几乎很难改善有关最终职位安置的结果,跟了解这个人的学术血统后的预测效果差不多(12)。这一背景下的准确预测或许需要不同的、更少接触到的数据,或者安置结果根本就是难以预测的,因为这取决于潜在不可测量的因素。


通过测量科研生产力以及发表作品被引用情况,研究人员也已经调查过了科学家个人在职业生涯中的表现和成就的可预测性。一般常识认为生产力——粗糙得说就是发论文的数量——会在职业生涯早期趋于高峰,接下来是一条长长的、逐渐下降的曲线(13),或许日益增加的教学和服务任务影响了科研作品的数量,降低了创造力等。不过,近期的一项对四十多年的生产力数据分析(针对 2300 名计算机科学教育人员)表明,个体生产力存在巨大差异性(14)。通常,最富生产力的时间集中在成为首席研究人员的最初 8 年中(图 2),生产力高峰通常出现在首次升职之前。同时,近一半研究人员生产力最高峰的一年会出现得晚一点,有些研究人员的生产力最高峰出现在职业生涯晚期。



image (7).png


对于绝大多数研究人员来说,生产力高峰很早就出现了。


(左)热图表明 2300 名计算机科学教员职业生涯中,生产力最高峰年份出现的时间(以发表作品数量为准),从第一份教职开始,从左到右依次列开。(右)直方图对热图的横向进行了总结,表明,对于绝大多数 研究人员来说,他们生产力达到最高峰的一年通常出现在创立自己实验室的 8 年内。


过去的作品也意味着,职业生涯的早中期更有可能做出科学家个人最佳科学发现,比如,被引用最多的作品(15,16)。这一模式意味着主要发现的出现时间多少是可以预测的。不过,针对 10,000 名科学家发表作品历史的分析表明,实际上,一项发现的影响力和它在职业生涯中出现的时机,并无相关性。也就是说,当这位科学家论文按照从第一篇到最后一篇的顺序进行安排时,他们引用率最高的发现就是第一篇论文的可能性大致等于可能是第二篇、第十篇甚至最后一篇的可能性(图 3)。年轻科学家倾向于成为绝大多数最主要发现的发起人——这一发现因此也是他们通常更富生产力这一事实自然而然的结果,并不必然是职业早期能力提升的一个特征。仅凭简单的机会本身,个人的最佳发挥更有可能出现在这位科学家职业生涯更富创造力的阶段。


image (8).png

图 3. 在一位科学家作品序列上任意一点的主要发现。


这幅栅格图展示了随机挑选的 150 位 物理学家(17)所有作品的顺序,从第一篇到最后一篇,每一行圆圈代表了一为科学家发表作品的顺序。一行当中,蓝色圆点标记的是最高影响力的作品。蓝色圆点在表格里的不一致分布以及对应 10,000 调查者(顶部)柱状图的平坦表明,主要科学发现什么时候出现,并无规律可循。


虽然每位科学家影响最显著的论文的相对时间可能无法预测,但预测论文会被引用的次数和它是两码事(17,18)。具体来讲,援引已发表论文会以系统、持续性的方式因科学家而异,这与科学家工作主体的可见性相关,但与研究领域无关。这种模式使我们能够预测一个科学家最优论文的被引用量。关于科学家个人巅峰时期和幅度的两个结果表明,个别科学家成就的某些方面极难预测,而在其他方面更容易些.


生产力和影响力当中,强健以及场外独立(field-independent)模式,以及研究建议评估中有关偏差的证据,对目前为大多数科学研究提供资金的方式提出了质疑。比如,观察及实验研究表明,女性、非白人研究者(19,20)或侧重于跨学科研究(21)的项目申请获得资助的可能性更低。同样,最具创造力与影响力的时间集中于科研生涯的前十年,这似乎证明将资金从较年长的科学家向年轻科学家转移的举措具有合理性。NIH 长期支持早期研究者便是一个显著实例,尽管其成功很有限——因为 NIH 对 40 岁以下科学家的奖励数量仍低于 30 年前的峰值(22)。另一方面,有人可能认为尽管外部资金不平衡,年轻的研究人员往往更有成效。科学的科学根据这些情况确定了一个重要的模式,但根本原因的确定则需进一步调查与主动性实验。


引用、出版量、职业发展、学术奖项以及其他通用度量是最佳原始数量,而如今我们可能正在接近它们能够告知的关于科学生态系统及其发现生产的信息极限。这些度量是科学前沿进展的滞后指标,它们能够预测新领域的出现或重大发现的可能性也许会很低。科学的科学中存在一个根本问题:能否使用更及时或具体情境的科学家的工作数据来进行更准确的预测,例如论文的内容、预印本数据、科学研讨会、科研团队沟通、被拒稿件、资助申请及其同行评议,甚至是社交媒体。我们应当使用控制实验来揭示大型数字数据库中所观察的模式中的因果机制,并探讨可测量的量与我们的解释之间的关系,如引用计数如何反映感知的科学影响(23)。


「... 我们有责任确保使用预测工具不会阻碍未来的发现,将弱势群体边缘化...」


其中引用和出版量是以往成功的度量,它们展现出创造愈发丰富的动态的反馈循环。当与具有现代科学出版、投资和聘用特性的超竞争力相结合时,由于在未来成功的机会的分配中有一部分基于最近成功的标记,这种反馈循环则可能在成功中产生显著的不平等。然而贯穿科学发现许多方面的深度不可预测性表明,过度依赖这些度量能够产生自我实现的预测(24),这最终缩小了科学创新的范围,并将注意力从潜在、基本但不可预测的进展中移走。未来研究的一个重要方向必定是制定成功的度量和不易受反馈循环影响的评价系统。


而存在的一个隐患是:资助者、出版商和大学可能利用大型书目数据库来创建新的系统,自动评估项目申请、手稿或年轻学者的未来「影响」。这种数据挖掘工作应当非常谨慎。它们的使用由于侧重与以往成功的原始指标相关的细微相关性,便可能轻易对创新造成阻碍,并加剧现存科学系统的不平等。毕竟新的发现由于从未被看到过而非常有价值,而数据挖掘技术只能了解过去做了什么。自动化系统的必然出现使得科学界必须指导他们的发展与使用,以便纳入机器学习中的公平、问责和透明的原则(25,26)。我们有责任确保预测工具的使用不会阻碍未来的发现、边缘化弱势群体、排除新想法或阻碍跨学科研究与新领域的发展。


就像生物生态系统适应选择压力一样,科学生态系统最终将适应不断变化的科学激励和需求(27)。随着压力改变,科学家们将适应或者退休,将生存与增殖的实践亲身传授给他们的学生。然而令人不安的是,诺贝尔奖获得者几乎每年都声称他们最大的发现在现存的研究环境中本不可能。2016 年,Ohsumi 声称「如今科学家愈发需要为他们的研究提供即时而明确的应用」(28)。这类对于未料想到的可预测型发现的普遍重视会孕育出另类的、更具冒险精神的科学家。而结果可能会是净化选择的一种危险形式,这种形式下的年轻科学家会优化他们的研究并向一种趋势靠拢,这种趋势与我们每年评出的具有突出科学贡献的科学家类型不相适应.


根据生态学及进化理论改进观点在更好地整体性理解并预测科学生态系统方面极具潜力。这方面的进展将有助于我们避免由于多样性的丧失而造成的创新上的损失。作为共同体,我们必须制定培养一个多元化的科学生态系统的制度,包括 Freeman Dyson 谈到的俯瞰远方的鸟和探索细节的青蛙(29)、逆向、流浪者、工具建设者等。然而,在科学家之间实现这种多样化选择的实际细节仍不清晰。真正的生态研究依赖于观察研究与主动性实验的结合。然而,科学的科学中的大多数工作纯粹是观察性的,并且增加主动性实验(30)将需要源于定义适应性景观的资助机构、出版商和管理员的关注、魄力和勇气。如果说科学的科学能够教我们什么,那便是科学本身可以用科学的方法探测,而我们定会愚蠢地忽略实验。


在新的数据源、新实验和新想法的驱动下,我们期盼科学的科学可以产生更多有关社会过程并能导致科学发现的振奋人心的洞察。研究已经表明,这些发现的某些方面是可预测的,并且它们在很大程度上与以往发现的引用随时间积累的途径相关。然而在其他方面可能根本上就不可预测。这些限制在如今的大数据与人工智能时代是微不足道的见解,并表明用于产生科学发现的更可靠引擎可能是培养和保持科学家健全的生态系统,而非专注于预测个体发现。


三、超越预测:使用大数据解决政策问题


摘要:从医学到分配城市火警、卫生监察点等应用领域,机器学习预测方法硕果累累。不过,在预测和决策之间仍然存在不少鸿沟,我们需要了解基本假设以优化基于数据的决策行动。


最近,科学、产业以及政府领域分析的爆炸增长,以寻求「大数据(big data)」的帮助来解决各种问题。日益增长的大数据应用使用了有监督的机器学习(SML/supervised machine learning)工具。在描述这一工具有望用来解决临床医学问题时,Obermeyer 等人评论到:「机器学习……就像医生通过实习获得进步那样来解决问题:从数据中学习规则。开始是病人观测值,然后算法筛选大量变量、寻找可靠的预测结果的组合……机器学习的优势就是可以处理大量预测因素(predictor)——有时还惊人地预测因素比观测值还多,并以非线性、高度交互的方式将它们组合起来。」


SML 技术最初出现在计算机科学和工程学领域,已被广泛用于工程应用,比如搜索引擎和图像分类。最近,用这一方法解决科学和政策问题的应用数量也越来越多。在公共领域,这一方法模型已经被用于刑事司法制度(2);使用移动数据、卫星图像或谷歌街景(3、4、5)预测经济状况;分配城市火警、健康监察点等,以及各种城市应用。该技术已经被用于分类文本中的政治偏见(8)以及评论中的情感分析。在医学领域,基于有监督的机器学习预测算法已经被医院用于按照病人的并发症的风险预测病情,优先安排病人的医疗干预 (10),该技术还被广泛用于多种其它医疗应用,包括个性化医疗(1)。


有监督的机器学习的迅速普及部分归功于数据、计算技术以及资源、数据分析技术、开源软件方面的进步。另一个因素这些技术被设计用来解决的问题很简单。现成的预测技术要发挥作用几乎不用什么假设(assumption):环境必须稳定、其行为正被研究的单元个体不会互动或相互干扰。在许多应用中,SML 可以被对问题领域所知甚少的科学家成功地加以应用。比如,Kaggle 公司主办的预测竞赛(www.kaggle.com/competitions)中,赞助商提供数据组,来自世界各地的选手提交的作品常常能成功预测,无论其关于问题的背景多么有限。


然而,对纯预测方法的局限性的关注要少得多。当这一方法被用于现成的预测,而没有理解基本假设或确保满足诸如稳定性等条件时,结论的有效性和有用性就会受到损害。一个更加深入的担忧时,只使用预测技术是否就能解决给定问题,或者是否需要对干扰的因果效应(causal effect)进行评估的统计方法。


Kleinberg 等人(11)强调了这一情况,现有的 SML 技术可以部分(但无法全部)解决健康政策领域的资源分配问题。他们考虑的问题是决定是否通过医疗保险给否则不合格的病人做髋关节置换手术。他们使用 SML 预测概率(一个要进行关节置换手术的患者是否会因其他因素在一年内死亡),以及识别那些处在特殊高风险,不该进行关节置换手术的患者。他们认为:「好处会随着时间的推移自然显现,因此,如果某人能获得够久来享受手术的好处,那么手术才有意义;给不久就会死亡的病人置换关节没什么价值——浪费金钱,给生命的最后徒增不必要的痛苦。」


这类问题中,聚焦预测的基本原理是很明显的;我们知道,一个干预的平均影响,在某种世界状态下,也是负面的(如果病人很快死亡),因此,预测世界状态足以用来预测是否放弃手术这一决定。不过,作者强调了这一事实:纯粹的预测方法并不能解决更加复杂的问题,比如,在那些可能存活超过一年的病人中,哪些病人该被给予最高的手术优先性。一个完整的资源分配问题需要评估手术效果的异质性,比如,因为一些病人有更高的手术并发症。将稀缺资源优化分配给手术效果能最大改善其福利的病人,是一个更加困难的问题,这个问题太长需要回答反事实的问题:采取那些以前从未实施过的各种替代分配政策后,会发生什么?


在另一个资源分配样例中,产业领域很常见,就是使用 SML 预测客户流失(即消费者放弃一家公司服务)的概率,然后公司对那些具有高度流失风险的用户给予干预(比如扩大销售人员的服务范围),以这样的方式解决问题。Ascarza (12) 记录了采取这类举措的公司,然后使用借鉴自因果推理论文献的方法提供了经验证明:根据一个简单的预测模型来分配资源,并非最优的做法。高度流失用户组群和最优可能回应干预组群之间的重合只有 50%。因此,将留住用户的问题视为一个预测问题,为公司带来了更低的回报。


公共领域的资源分配问题是指一个城市应该优化分配监察点的地点,以最小化安全或健康问题。纽约的 Firecast 算法是根据预测的违反概率来分配火警监察点。Glaeser 等人 (6) 发明了一个类似的系统用于分配健康监测点(这对波士顿餐厅)的位置,该系统得到了应用,初步估计每次检查后,30% 到 50% 的违法情况得到了改善。


如何优化监测点分配的决策问题将直接归于预测领域——如果以下简化假设为真:(1)被检查单个单位的行为是固定的;(2)识别出问题时,能立刻低成本加以解决,成本并不因为单位(unit)不同而所有不同。知道哪个单位更有可能违法,等于知道哪个单位应该得到监察。不过,更加现实的环境还集成了不同单位的异质性:一个建筑可能因为老化的电路而处在更高的失火风险中,但另一些考虑会让置换老线路变得困难。另一些单位的预测风险更低,但是,更容易做出实质改善,改善成本也低廉。另一个考虑是回应(responsiveness)。如果违法被处以罚金,一些公司会比其他公司对罚金更加敏感。整体说来,解决城市监察点分配的问题包括评估监察政策的因果性:在新的监测点分配机制下,你希望这个城市里单位(比如,食物中毒率)的整体质量有什么样的提升?


因此,预测和因果推论是本质不同的两个问题(尽管密切相关)。只有分析师超过这些预测方法来做出假设时,因果推理才是可能的;这些假设通常不能被直接测试,因此需要领域专家来进行验证。已经有关于因果推论的横跨多学科(社会科学、计算机科学、医学、统计学、工程学以及流行病学)大型文献来分析这类问题(参看 Imbens and Rubin (13))。使用并非从随机测试中获取的数据来评估因果关系的办法之一就是针对导致微分检测概率(differential inspection probabilities)的因素进行调整,然后根据特定餐馆健康结果 预测检查的效果(或许使用审计)。近期的方法进展关注的是调节大数据应用中观察到的混杂因素(比如,14–16)这一文献的主题之一就是现有的来自 SML 的预测模型招致了因果效果预测中的偏差问题,但是,持续有效的因果估计能够通过修改 SML 技术得以实现。


另一个用于估计因果效应的方法就是利用设计好的实验。Blake et al. (17) 使用了一个以城市为基础的双重差法(difference-in-difference methodology)来评估 eBay 的搜索广告的效果(因果)。就像许多搜索广告商,eBay 靠历史数据来测量搜索广告的好处,不过,也确实试着区分开因果性和关联性。而且,eBay 使用一个简单的预测模型(其中,点击被用来预测销售)测量了广告的效果,他们发现广告点击的投入回报(也就是说,由点击所贡献的 eBay 销售与广告点击成本之比)大约为 1400%。


通过使用实验数据测量广告效果,作者发现真实的投入回报为 63%。天真的分析和实验结果之间存在鸿沟的部分原因是许多点击 eBay 搜索广告的用户本来是要从 eBay 买东西的。尽管点击广告强烈预示着一次交易——消费者通常会在点击之后迅速购物——实验揭示出,一次点击很难说有大的因果效应,因为不管怎么说,点击的消费者很可能要购物。


除了资源分配问题之外,纯预测和因果推断之间的区别几十年来一直是很多领域内方法和经验研究的主题。经济学对这个区别特别关注,或许是因为一些最基本的经济问题,如在不同的价格下消费者的需求变化,不能通过纯预测模型来得到答案。举个例子,同一个产品在不同(假定的)的价格水平下,消费者的购买量是多少?虽然这个问题似乎看起来可以直接套用 SML,将价格水平设置为一个说明性的特征(feature)来预测出销售量的「结果」。在实际操作时,如果 SML 被用作一个估计价格与销售量之间的因果效应的方法,这个方法将会很失败。假设,一个分析师有酒店价格和入住率的历史数据。一般情况下,价格和入住量是正相关的,因为酒店既有的价格政策(经常通过利润管理软件来制定)明确规定当酒店预订越来越满时酒店提高价格。直接套用 SML 技术的应用是为回答以下类型的问题所设计:如果一个分析师被告知在某天,客房价格非比寻常的高,那么这天最准确的入住量预测是多少?正确的答案是入住量将很可能很高。相反,改变价格政策的影响问题是一个因果问题,并且一般经验表明如果公司执行一项新政策来系统性的提高酒店所有服务价格的 5%,那么酒店将很可能会有更多房间被入住。另一个不同系列的统计技术将可以用于回答这样的问题,或许可以利用数据中「自然的实验」即一个被称之为「工具变量」的方法 [13 是对这些技术的回顾]。最近,一些作者将 SML 的优势同这些传统小数据系列的方法结合起来了,为了用于估计典型因果效应和私人化的因果效应估计。


预测与因果推断之间的区别之外,仅为预测而做的方法优化也不能顾及到其他因素,这些因素可能在数据驱动的政策分析或者资源分配上很重要。例如,动机和可操控性可以很重要。如果一个建筑或者餐厅所有者依据这些特征,预料到被审查的可能性很小,他或她将减少安全措施上的投入。


在一个数据驱动政策的例子中,可操作性发挥了作用,不列颠哥伦比亚的市场定价系统(MPS)被用于对国有土地的木材收购的定价,这些国有土地是在长期租约下被分配给木材公司的。MPS 构建出一个可以预测的模型,这个模型所运用的数据来自拍卖中木材的售价,该模型可以用于预测如果将长期租约下的一片土地的收获木材拍卖所可能达到的价格。但是,一个租约持有者潜在很可能有在拍卖中人为低价竞标的动机,从而达到影响模型对长期租约下收获木材的价格预测,也即降低了他们长期租约下收获木材的成本。作为模型选择过程的一部分,MPS 的预测模型服从于仿真情境,使得任何单个大型木材公司都能实现各自的可操作性。这个已经实现的模型并不是一个具有最好的预测性能的模型,最好的预测模型具有期望拥有的鲁棒性而不是可操作性。


在实际运用统计模型时,很多其他需要考虑的问题涌现出来。有时候让利益相关者理解一个已做出的决定的缘由是很重要的,或者决策者可能需要记住一个决策规则(如医生)。基于透明度和可解释性的考虑,或许会导致分析师们偏好模型的简单性而牺牲模型的预测能力。另外一个需要考虑的是公平性或者说歧视。美国贷放款的消费者保护法禁止实际应用中有依据种族的歧视。一些公司可能希望运用 SML 方法从工作申请者中挑选出可以面试的申请者;但是他们可能希望在算法中设置多样性目标,或者最起码可以阻止性别和种族的不平等。在 SML 的文献中可以看到这些问题在最近受到关注(如 21)。


总的来说,大数据如果想要在商业、科学以及政策上实现其全部潜力,从有监督的机器学习的文献来看,需要有由新的计算机算法所构建的多学科方法;同时还能带来使用经验证据来引导政策的数十年多学科研究的方法和实际学习。一个不成熟的但是快速成长的研究采取了这样的一个方法:例如,2016 年的 ICML(International Conference on Machine Learning)对 SML 方法的因果推断(casual inference)、可解释性(interpretability)以及可靠性(reliability)分别组建研讨会,虽然谷歌(22)、Facebook(23)和微软(24)的多学科研究团队已经开发出了可以使用的工具包,且这些工具包拥有为实现因果推断、实验性的设计以及估计最优资源分布政策的可扩展算法。随着其他领域持续加入和 SML 研究团体一起用大数据来寻求现实世界政策问题的解决方案,我们预计数据驱动的政策在算法提升和成功实现上将会有更大的机会。


四、预测人类行为:下一个前沿


机器学习的进步正在变革我们对线下(offline)和线上(online)人类行为的理解。从训练集中分类我们感兴趣的对象,无论这些对象是恐怖分子、需要维护的机器或包含恶意链接的电子邮件,其都代表了这一领域内的巨大成功。或许不存在一种机器学习算法能将所有都做好。虽然精度是至关重要的,但是可接受的精度程度是随着研究问题的变化而变化的,仅仅只有精度是远远不够的。研究人员经常解释为什么他们的预测是正确的,但是从不解释为什么他们的预测可能也是错误的。那么决策制定者同时了解这两部分的原因将有利于他们制定更好的决策。特别是在高风险的情况下,预测必须同时提供相应的解释,这样才能为进一步研究提供更深入场景理解。


预测模型还必须为潜在的未来行动提供一个或多个解决方案,这样决策者才能更好地决策。如今的机器学习方法并不一定满足这三个标准。因为构成理想的预测算法还是取决于现实应用。通常,利益相关集团(如社会媒体平台和搜索引擎)将对精度有不同的定义,从而满足其特定的需求。此外,行业专家可以使用领域内广博的知识建议在数据集内包含相关的独立变量。通常,他们将使用由预测模型生成的技术精度测量和他们的学科中的内容结合起来解释预测结果,所有这些都表明在现实世界体系中,计算机科学家需要和其他利益相关者进行合作而取得深远影响的结果。


在我们看来,下一代的预测模型需要解决以下四个主要的挑战。


首先,更多数据总会获得更好的预测模型这一格言并不总是正确的,因为数据中的噪点可能会压垮预测模型。处理噪点、不完整和不一致数据的能力将会是下一代预测模型的核心。例如,在推特上识别「bots」就是寻求在政治候选人上持正观点,而忽略寻求其它结果的大量「bots」。例如传播垃圾邮件、寻求在其他主题上影响他们的观点或欺骗用户点击链接从而为他们创造利润的机器人。此外,许多推特的数据是受到限制的,在一些情况下甚至会故意产生误导。所以机器人开发者就需要确保他们的机器人逃避检测。


第二个挑战是罕见事件预测。例如,公司监控其内部网络来识别可能会窃取机密的用户将会包含所有公司雇员的在公司内部网络活动的信息,其范围包括从对员工的邮件分析、上传(到网站)到下载到内存存储设备等。许多雇员对公司是诚实的,只有一小部分可能会存在问题。在这样一个案例中,机器学习算法将很难从无辜用户(这种情况下,数据称为「不平衡」)中分离清楚那些「稀有」的个例,并且预测模型一般表现不太好。


预测新现象时保持模型的准确性是重要的第三步。社会运动常被分为五个步骤:导火索、社会动荡增加、发展组织核心成员、组织的维持和终止(假如运动最终消亡了)。当事件还处于早期阶段(如有人开始在 Twitter 上抱怨),准确预测之后发展的动向可以让我们在其后更加激烈的冲突中受益。


第四个因素是人类的行为是动态变化的。我们的对手(如恶意软件开发者或恐怖分子)会不断适应环境。因此,高阶预测(关于预测模型的预测)的形式成为了关键。我们需要预测模型何时出错,或何时人们行的为将发生改变,因此我们在太多错误发生之前就可以开发出新的预测模型。OpFake Android 恶意软件的开发者最初设计这个病毒自动从受感染的手机发送短信给高价付费服务号码。后来,开发者调整了策略,也开始涉足银行卡欺诈。我们迫切地需要开发可以在发生时或甚至在发生之前识别这些危险行为的预测模型。


开源数据的爆炸和机器学习的发展彻底改变了我们分析人类行为的方式。在未来的几年里,随着物联网的发展,这种多样性会出现又一次爆炸——异构数据。我们可能会遇到与不完整,不一致,不平衡和混乱数据相关的问题。生成准确预测和高质量分析的能力,包括对预测的支持和证据,以及提供可操作决策的能力,将是决定性的,因为机器学习系统将无处不在。一个数据驱动,多学科,多利益相关者的方法对于预测未来的模型而言至关重要。


五、特刊其他几篇文章的摘要


(一)在线民调:人民的脉搏


在线民调系统会成为民调预测工具,甚至替代品吗?传统的民意调查,无论是通过电话还是面对面的问询都是费时费力的方式。而且这类方式的有效回复率已经下跌至 10% 以下,只能为分析者提供一个带偏见的小型样本。而在线民调的方法,如 Twitter 分析可以让研究人员直接研究数百万群众的政治观点,实时更新,而且数据是免费的。然而无论传统还是 Twitter 民调都没有预测出去年 11 月份的美国大选结果。网络看起来仍然无法让我们摸清人民的脉搏。但社会科学家相信它终究会是正确的方式。


(二)社会系统的预测与解释


社会科学研究者一直在寻求人类和社会现象机制的合理解释,却往往忽视了预测准确性。我们认为,社会科学越来越多的计算性质已经开始扭转对于预测的偏见了。但是仍有三个重要问题亟待解决:首先,目前用于评估预测的方法必须进行标准化;第二,复杂社会系统中预测准确性的理论限制必须得到更好地表征,从而设置对可以预测或解释的预期;第三,在评估解释时,预测准确性和可解释性必须被视为补充,而不是替代。解决这三大问题将使我们获得更好,更可重复和更有意义的社会科学。


(三)通过预测竞赛将概率判断用于政策辩论


政策辩论经常会受到不准确预测的影响,这让决策者难以评估和改进政策。一项由美国情报机构赞助的锦标赛展示了人们可以通过使用概率模拟来进行预测——即使是那些看似「独特」的事件。同时,它也证明了比赛是生产知识的有效工具。根据关于问责制影响的文献,作者认为竞赛具有很大潜力,可以作为消除政治辩论和解决政策争端的工具。

入门人工智能产业科学行为预测
机器之心
机器之心

机器之心编辑

返回顶部