人工智能探索引擎将帮助我们找到最复杂科学问题的答案

你看到了深度学习的哪些缺点?

深度学习已经成为了近些年最耀眼的成就,但是它仍然仅仅作为分类(或非线性回归)的工具。

我们已经看到了人工智能在图像、语音片段、甚至棋盘布局上越发精确的分类结果,但是它需要摆脱分类和回归的局限。让我们来讨论一下 AlphaGo 吧,它是 DeepMind 团队的一个引人注目的技术成就。

但是,对于 AlphaGo 成功的大肆吹捧,无异于一个人爬到了树顶就宣称「我马上就能登上月球了!」

当然,下面就是我要给出的原因:

  • AlphaGo 是基于海量的标签化数据,这在游戏中是可以轻易实现的,但在其他的环境下很难做到。例如, 在 Semantic Scholar 网页中将所有引述分类为「具有影响力」以及「不具有」——未标签化的数据实在太多——标签化数据难以实现。

  • 我们不知道如何在深度学习系统内植入复杂的背景知识或逻辑推导能力。

  • AlphaGo 基于一套手动的神经网络,并且各个应用之间需要转换。

  • AlphaGo 依赖人类去指定输入表征以及输出目标类别——它不能自我指定。

  • 在许多情况下,仅仅是指定适合的类别也会由于对象的细微和模糊性,变得十分困难。

我们底线在于:当我们成功的定义了一个目标方程,并将现实任务降维成一个优化问题的时候——我们的计算机科学 「肌肉」会高速运转,然后通过足够的数据和(迟早都会)成功的表征,我们可以解决这个任务。然而,许多问题并非结构良好的,仅仅将它们形式化就可能需要额外的分析。例如,我们该如何才能以正式的方式写出一个句子的含义?

大部分这些评论都不仅仅针对 AlphaGo 或深度学习,而是适用于所有监督式学习程序。正如 Alan Newell 所说:「你无法和大自然进行智力竞猜然后获得胜利!」

多亏了伟大的 Geoff Hinton ——思维并不是一个向量,人工智能也并不是一个统计学问题。

艾伦人工智能机构是一个怎样的机构?你关注的核心又是什么?

位于西雅图的艾伦人工智能机构(AI2)是一家非盈利研究机构。我们的任务是通过具有高影响的人工智能研究与工程去造福人类。或者更加简洁点:创造服务社会的人工智能。AI2 由 Paul Allen 在 2014 年创立,现在有 50 位研究人员与工程师,并还在迅速增长之中。

因为我们将长期的研究,同目标驱动并以团队为核心的创业思维相结合,来解决一些大学没有足够资源支撑的项目。我们没有申请研究资金来完成研究的压力,也不用担心要为风投机构或股东们创造利润的问题。

Jeff Hammerbacher 曾经说过一句著名的话:「我们这一代人最聪明的人都在绞尽脑汁地思考怎么让人们点击广告,这糟透了。」

相反地,我们有研究员和工程师肩并肩去奋斗在类似 Semantic Scholar 这样的项目上,它有潜力通过最精尖的人工智能和工程来造福人类。

这个项目的长期愿景是:

「说不定有一个不可治愈的癌症的治愈方法,就隐藏在上千篇乏味的临床医学研究报告中呢?在 20 年之后,人工智能将可以阅读——更加重要的是去理解——科学文章。这些人工智能读者将会连接起不同研究的关键点,识别出新奇的假设,并从而提出一些可能会被错过的实验建议。」

「人工智能为基础的探索引擎将会帮助找到科学界最复杂的问题的答案。」

你怎样看待 OpenAI ?

OpenAI 对于人工智能生态系统来说是一个强力的辅助,并且拥有着 Deep Learning 相关研究者组成的优秀团队。我希望我们能够达成合作,并希望他们不需要放弃非盈利的最初愿望。

让我很高兴的是,他们启用了由艾伦人工智能机构所激发的使命宣言,也就是「为了人类共同利益的人工智能」。

对于 Elon Musk 针对人工智能所称的「释放了恶魔」,但依然在许多人工智能公司,诸如 OpenMind、Vicarious、以及现在的 OpenAI 人工智能研究这一事实,我其实非常困惑。接着,又有了特斯拉公司....

人工智能对于人类是存在意义上的威胁吗?

Andrew Ng 曾经说过有名的一句话:「担心人工智能会变成邪恶的事物,就像担心火星将会人满为患一样,为时过早」。

好莱坞(以及媒体)一直都沉浸在「人工智能的存在威胁」,但忽视了下面的事实:

  • 产生一个「真正」的人工智能系统——而不是像 AlphaGo 和深蓝这样狭隘意义上的「学者」——所面对的技术挑战是难以想象的。

  • 人工智能在预防车辆事故、医疗误诊等等方面给社会带来的巨大潜力。

实际上,沉浸在对不切实际的遥远未来的担心,导致人们忽略了人工智能可能在近期带来的真正问题:它对于就业或武器制度的影响。

此外,要记住,未来不会只单独出现一个人工智能——多个人工智能系统可以实现「相互制衡」。

除了语言+视觉之外,艾伦人工智能机构是否对于纯粹的计算机视觉问题也很感兴趣?

没错,我们正在 AI2 积极地研究几个核心的计算机视觉问题,并且有厉害的 Ali Farhadi 指导我们。

除了我们在科学问题的视觉化理解上的努力之外,我们还在关注许多其它的视觉问题,诸如常识的获取、物理学知识、高效的深度学习解决方案、场景理解以及目标探测。

我们研究的一个重点就是理解场景内目标的物理特征。能够理解作用力与物体之间的互动,是视觉逻辑推导的一个重要组成部分。

最近,我们提出了一个二叉(binary)的深度学习框架,将网络的规模降低了接近32倍,提供了在有限容量的可移动设备加载深度学习网络的可能性。

我们在目标探测和场景理解上有许多研究。例如,就在最近的一个研究中,我们以每秒155帧的速度处理场景,同时仍然维持了超出其他实时目标探测器的两倍的优秀表现。

你最期待看到了哪一个工业被人工智能所影响?

人工智能能够在下面几个行业中挽救人们的生命:

  • 交通业:人工智能会预防许多许多的事故。

  • 医疗健康:人工智能可以帮助医疗诊断的错误,帮助创造新的革新性的治疗手段。

  • 矿业与消防行业:机器人将会有一天接手这些危险的职业。

当然,我们现在必须要问一下自己:这对于人类的职业会又怎样的影响?我们如何确保这些行业中被取代的人们不会成为人工智能成功的牺牲品。

为什么相比于深度学习,艾伦人工智能机构更加关注 GOFAI(Good Old-Fashioned Artificial Intelligence,有效的老式人工智能)?

GOFAI 由一套问题和一套技术解决方案组成。领域的基础问题并没有改变,仍需要被解决。GOFAI 技术解决方案并没有被证明有扩展性,因此我们希望用包括深度学习、其他形式的机器学习,ILP 以及更多的现代化的方案取代它们。

在建立 Semantic Scholar 上有哪些特殊的人工智能问题需要被解决?

Semantic Scholar 利用 NLP(自然语言处理)、文本挖掘、信息提取和视觉技术去帮助科学家对抗过度载荷的信息,将更多精力放在核心论文与重要的结果上。
通过这些方法,我们能够提供下列独一无二的特征:

  • 为论文识别最具影响力的引用——可以超过10倍的数量减少你需要的考虑的论文。

  • 自动生成因子去过滤论文结果,包括所利用的数据库、关键词与论文元数据例如作者与会议。

  • 我们可以自动获取与一篇论文有关的数字与图表。

所有这些问题都具有挑战性,因为我们从处理论文的 PDF 版本,这意味着要展示出论文,但通常不包含关键的语义信息。

四年级或八年级的科学测验对如今的人工智能来说,难道不是一个成功率极低的尝试吗?为什么不从一些简单的任务开始,比如说从视频里的对世界的基本理解?

科学问题十分具有挑战性,因为它们涵盖了巨大种类的话题,常常从商业运作跨度到科学知识,也频繁的充斥着各种图标及其文字。

举个例子,一个小学四年级的问题如下:

四年级的同学们正打算举行一场滑旱冰比赛。下列哪一种表面最适合比赛?

(A) 石子路
(B) 沙子路
(C) 柏油路
(D) 草坪

这道题要求你掌握关于滑旱冰和不同材料的基本知识,还有关于运动的科学知识。

从我们在  AI2 的实际操作来看,四年级科学确实看起来可以触及。我们的 Aristo 系统现今能在纽约校务委员会的四年级科学测验中得到接近 50% 的得分,并继续提高着(65% 算及格),而我们的工作包括解决问题上的进步:对解决一些需要简单的道理论证和图像理解(对某些种类图像)的提升。基础科学十分适合作为发展人工智能的一个领域,因为它可以被清晰的计量,并且为各种任务——从一些简单的到一些需求深度理解的——提供循序渐进的推进。这之前已经有几个人工智能带来巨大进步的例子了:它通过选取那个正好的问题来进行专攻。我们相信基础科学很适合被运用在这件事上。

八年级科学比四年级科学难了许多。问题更长、包含了更多复杂的图表、还对更深层的推理有要求。然而就算这样,也有证据表明我们可以达到进步。举个例子,在 2015 年的艾伦人工智能八年级科学挑战上,最优秀的系统在无图表、多选问题上取得了 60%的成绩,而能够运用更高等数学和几何来进行推理的系统也取得了良好的表现。不论需要花多长时间才能及格,这些挑战为激发在这一领域的显著的、新新的进步创造了一个美好的背景。

要深度阅读请见论文:http://www.allenai.org/papers.html
我们的公共数据库:: http://www.allenai.org/data.html

在运用神经网络来达到信息提取的过程中,有什么有趣的研究问题和方向吗?

许多的信息提取的核心有一套概念学习方法。举个例子,TextRunner (在 Open Information Extraction 可以看到相关演示)依赖于一个 CRF 从一句话里提取各类关系。我们很自然的会考虑:如果我们用一种 LSTM 为基础的解决方法来代替 CRF 会怎么样?

具体实例请见论文:Semantic Scholar (https://www.semanticscholar.org/paper/End-to-end-Relation-Extraction-using-LSTMs-on-Miwa-Bansal/23d1e3436ec530185be1fd067eba150fd9802be9)

一个巨大的问题则变成:我们如何去生成股走数量的被标记了的数据。

当然了,我们就会想到「远程监控」(distant supervision),而远程监控(它生成各类嘈杂的标签)和深度学习(它合理而强大的对应噪声)的结合也变得十分有趣......

对于一个初级研究者来说,为艾伦学院工作和为一个大学实验室工作不同吗?

在 AI2 工作意味着你不需要写那些宏大的提议(因为我们有全额的资助),你也不需要教书。相反,你能够全身心地专注于前沿的研究上。除此之外,你将会近距离的与顶尖的工程师、研究人员们一起团队协作。人们热爱 AI2 里要解决的难题、团队的热情、还有进展速度。

见:在艾伦人工智能机构工作( Working at Allen Institute for Artificial Intelligence)
见:什么事艾伦学院?你的专攻是什么?(What is the Allen Instiute? What are you focused on?)

怎么用平常人的话来描述「Semantic Scholar

这是一个通过人工智能实现高级筛选的用于科学论文搜索的搜索引擎。

见:为了建造「Semantic Scholar」,有哪些具体的人工智能问题必须被解决?( What are some specific AI problems that had to be solved to build semantic scholar? )

Semantic Scholar」怎样是使用机器学习的?

见:为了建造「Semantic Scholar」,有哪些具体的人工智能问题必须被解决?( What are some specific AI problems that had to be solved to build semantic scholar?)

入门人工智能搜索引擎产业观点
机器之心
机器之心

机器之心编辑

返回顶部