曹绮桐作者

AI预测未来? 虽然有曙光,但路还很长

如果了解一个家庭的经济实力、教育水平、生活环境等基础状况数据,你能预测未来十年或者二十年的生活样子吗?

答案是可想而知的 —— 毕竟复杂的社会网络、难测的生活经历,以及每个带有个人主观性质的小小决定,都有可能对未来生活造成不可逆转的方向的改变。

但是,当拥有大量基础数据后,我们或许可以判断个人在特定生活环境下怎样成长或者趋向性做出怎样的决定,某个事件对于家庭会造成怎样积极或者消极的影响, 这也许就会让不可能变成可能。

而 AI 强大的分析数据的能力,给这种预测未来的可能带来了一丝曙光。

如今,科学家们正开始在这一领域的尝试。

来自普林斯顿大学 (Princeton University) 与弗吉尼亚理工大学 (Virginia Tech) 等多家机构的研究人员合作进行的一项大规模研究,通过建立统计和机器学习模型来预测和衡量美国各地儿童、父母和家庭的生活结果,这个大规模的合作项目被称为 “脆弱的家庭挑战”。

来自弗吉尼亚理工大学弗拉林生命科学研究所的研究科学家 Brian Goode 是脆弱家庭挑战中的数据和社会科学家之一。“这是一项努力,试图捕捉数据和模型中构成人类生活结构的复杂性和复杂性。但是,为了更好地推断预测的不确定性和局限性,必须采取下一步行动,将模型置于如何应用它们的环境中。这是一个很难解决的问题,我认为脆弱家庭的挑战表明,我们需要在这一领域提供更多的研究支持,特别是在机器学习对我们日常生活产生更大影响的情况下。”Brian Goode 说道。

Goode 博士

该研究对 1998 年至 2000 年间出生在美国大城市的约 5000 名儿童进行了研究,其中未婚父母所生儿童的样本数量过多。这项纵向研究的目的是了解出生在未婚家庭的孩子的生活。

通过收集六次调查 (孩子出生的时间,然后孩子长到 1、3、5、9、15 岁时),这项研究已经收集了数百万关于儿童及其家庭的数据点。另一组数据将在孩子们 22 岁时被获取。

在研究人员设计这个项目的时候,15 岁的数据 (研究人员在论文中称其为 “保留数据”) 还没有公开。这同时也创造了一个机会,让其他科学家通过大规模合作来预测研究对象的生活结果。

联合组织者收到了来自世界各地 68 所大学的 457 份申请,其中包括来自普林斯顿的几个团队。利用该项目的家庭数据,参与者被要求预测 15 岁时六种生活结果中的一种或多种。其中包括儿童平均绩点 (GPA)、孩子毅力、家庭物质困难、主要照顾者裁员、主要照顾者参与工作培训等。

麦克拉纳汉是普林斯顿大学和哥伦比亚大学 “脆弱家庭与儿童健康研究”(Fragile Families and Child happiness Study) 的首席研究员。“刚开始的时候,我真的不知道什么是大规模协作,但我知道把我们的数据介绍给一组新的研究人员是个好主意, 那就是数据科学家,” 麦克拉纳汉说。

“结果让人大开眼界,” 她说,“要么运气在人们的生活中扮演着重要角色,要么我们作为社会科学家的理论遗漏了一些重要的变量。”

这项挑战是基于 “共同任务法”,这是一种在计算机科学中经常使用的研究设计,但在社会科学中却不常用。这种方法释放了部分但不是全部的数据,允许人们使用任何他们想要的技术来确定结果。目标是准确地预测保留的数据,不管达到这个目标需要多么复杂的技术。

研究结果由 112 名共同作者发表在《美国国家科学院院刊》(PNAS) 杂志上。结果表明,即使使用了最先进的建模技术和包含 4000 多个家庭 1.3 万个数据点的高质量数据集,最好的人工智能预测模型也不是很准确。因此,社会学家和数据科学家对于 AI 预测模型时应谨慎使用,尤其是在刑事司法系统和社会项目中。

弗吉尼亚理工大学的研究小组还在美国社会学协会 (American Sociological Association) 新出版的开放获取期刊《社会学》(Socius) 的一期特刊上发表了研究成果。为了支持这一领域的进一步研究,所有提交的挑战 —— 代码、预测和叙事解释 —— 都是公开的。

研究人员表示,结果向我们表明,我们有很多要学,科学家用来预测大数据集结果的机器学习技术,在预测人们的生活结果方面可能存在不足。

参考资料:

https://www.eurekalert.org/pub_releases/2020-03/puww-pto032520.php

https://www.eurekalert.org/pub_releases/2020-03/vt-pto032720.php

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业AI机器学习
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

推荐文章
暂无评论
暂无评论~