青暮作者 AI科技评论来源

首届AAAI/ACM SIGAI博士论文奖公布,姚班学霸吴佳俊获奖

11月6日,AAAI 和 ACM SIGAI 联合发布了首个博士学位论文奖。麻省理工学院博士吴佳俊获得了 2019 年 AAAI / ACM SIGAI 博士论文奖。另外还有两位博士获得了 runners-Up 奖项,分别是毕业于佐治亚理工学院的 Aishwarya Agrawal 和毕业于爱丁堡大学的董力。

AAAI / ACM SIGAI 博士学位论文奖由 AAAI 和 ACM SIGAI 联合设立,以表彰和鼓励人工智能领域的博士生的出色研究和论文,提名者必须是 ACM SIGAI 成员和/或 AAAI 成员。该奖项将每年在 AAAI 上颁发,获奖者将被邀请在大会上发表演讲。

一篇论文,三项荣誉

吴佳俊的获奖论文是“Learning to See the Physical World”,此前,该论文还获得 2019 ACM 博士论文荣誉提名奖。

今年7月,一年一度的 ACM 博士论文奖发布,毕业于特拉维夫大学的 Dor Minzer 获得该奖项。吴佳俊和瑞士洛桑联邦理工学院(EPFL)博士 Jakub Tarnawski 获得荣誉提名奖。

相关链接:https://awards.acm.org/about/2019-doctoral-dissertation

吴佳俊获奖论文:Learning to See the Physical World

论文地址:https://jiajunwu.com/papers/dissertation.pdf

论文摘要:

人类的智慧超越是模式识别的,我们可以从一张图像中解释所看到的内容,以 3D 形式重建场景,预测将要发生的事情并相应地计划行动。

尽管在过去十年中人工智能取得了惊人的发展,但与人类智能相比,人工智能(尤其是深度学习)在某些方面仍然不足:它们通常只能解决特定问题,需要大量的训练数据,并且在泛化至新任务或新环境时很容易失败。

在这篇论文中,我们研究了物理场景理解的问题:构建通用的、数据高效的、可通用的机器,学习如何观察、推理和与物理世界交互。

其核心思想是以逼近模拟引擎的形式,利用真实世界背后的通用因果结构,包括来自计算机图形学、物理学和语言的知识,并将其与深度学习相集成。在这里,学习起着多方面的作用:模型可以学习反转模拟引擎以进行有效的推理;它们还可以学习逼近或增强模拟引擎,以进行更强大的前向模拟。

本文分为三个部分,分别研究了这种混合模型在感知、动力学建模和认知推理中的应用。

在第一部分中,我们将学习与图形引擎结合使用,以建立对象中心的场景表示形式,以实现对象的形状、姿态和纹理。

在第二部分中,除了图形引擎之外,我们还将学习与物理引擎配对以同时推断物理对象属性。我们还将探索学习逼近模拟引擎,以提高灵活性和表达能力。

在第三部分中,我们通过循环程序执行引擎来利用和扩展在第一部分和第二部分中引入的模型,以进行概念发现和认知推理。增强的模型可以发现对象和场景中的程序式结构,然后将其用于下游任务,例如视觉问答和场景处理。

值得一提的是,这篇论文还获得了麻省理工学院 George M. Sprowls 人工智能和决策博士学位论文奖。

姚班学霸

吴佳俊本科毕业于清华姚班,然后在 MIT 相继获得硕士和博士学位,现在是斯坦福大学计算机科学系的助理教授,并且隶属于斯坦福视觉与学习实验室(SVL)和斯坦福AI实验室(SAIL)。

吴佳俊个人主页:https://jiajunwu.com/

他的博士生导师是麻省理工学院认知科学与计算教授 Josh Tenenbaum,Josh Tenenbaum 以对数学心理学和贝叶斯认知科学的贡献而闻名。加入斯坦福大学之前,吴佳俊还曾当过 Google Research 的访问学者。

他的研究兴趣包括机器感知、推理及其与物理世界的相互作用,认为AI研究应该从人类认知中汲取灵感。他目前已经有多篇论文被 CVPR、ICLR、ICML、NeurIPS 等AI顶会接收。据 Google Scholar 数据显示,被引用数超过 5000。

他目前已经发表 81 篇论文,还曾被列入 ICLR 2019 最高产论文作者之一,其学术能力可谓既优质又高产。

吴佳俊是清华叉院 2010 级本科生,后来入选姚班。他在本科期间曾连续三年学分绩全年级第一,获得过清华特奖,以及蒋南翔奖学金和姚期智奖学金,是学霸无疑了。

runners-Up 获奖论文

两篇 runners-Up 博士论文奖由毕业于佐治亚理工学院的 Aishwarya Agrawal 和毕业于爱丁堡大学的董力获得。

Aishwarya Agrawal 获奖论文:Visual Question Answering and Beyond

论文地址:https://smartech.gatech.edu/handle/1853/62277

论文摘要:

在本文中,我提出并研究了一种多模态人工智能(AI)任务,即视觉问答(VQA)。给定图像和关于图像的自然语言问题(例如,“这是一家什么样的商店?” ,机器的任务是自动产生准确的自然语言答案(“面包店”)。

VQA 的应用包括:帮助视力障碍的用户了解周围环境,帮助分析人员检查大量监视数据,通过交互式演示进行教学,让人类与 AI 助手进行交互,以及使可视化社交媒体内容更易于访问。

具体来说,我研究以下内容:

1)如何创建大规模数据集,并为自由形式和开放式 VQA 定义评估指标;

2)如何开发表征 VQA 模型行为的技术;

3)如何通过提出建议来构建 VQA 模型,使得模型较少受训练数据中的语言偏见驱动,而在视觉上更具基础。建议包括一种新的评估协议、一种新的模型架构、一种新颖的目标函数

我过去的大部分工作都是致力于建立可以“看到”和“交谈”的智能体。但是,对于许多实际应用(例如,物理智能体在房屋中导航以执行自然语言命令),我们需要的智能体不仅需要“看到”和“交谈”,还需要采取行动。在第 6 章中,我介绍了将视觉和语言智能体泛化为能够采取行动的未来方向。

Aishwarya Agrawal个人主页:https://www.cc.gatech.edu/~aagrawal307/

Aishwarya Agrawal 现在是 DeepMind 的一名研究科学家,研究兴趣是计算机视觉深度学习自然语言处理的交叉领域。

Visual Question Answering and Beyond”还曾获佐治亚理工学院 2020 Sigma Xi 最佳博士论文奖和佐治亚理工学院 2020 计算机学院论文奖。

董力获奖论文:Learning Natural Language Interfaces with Neural Models

论文地址:https://era.ed.ac.uk/handle/1842/35587

论文摘要:

语言是人类交流的主要和最自然的手段。如果我们可以使用人类语言与机器对话,与各种设备和服务(例如,数字助理和智能设备)进行交互将变得更加方便。

但是,在大多数情况下,计算机只能解释和执行形式语言。在本文中,我们专注于使用神经模型来构建自然语言接口,从而学习将自然措辞的表达映射到机器可解释的表示上。

由于(1)自然语言和形式语言之间的结构不匹配,(2)输出表示需要正确的格式,(3)缺乏不确定性信息和可解释性,以及(4)语言变化的模型覆盖面,因此该任务具有挑战性。

在本文中,我们开发了几种灵活的神经架构来应对这些挑战。我们针对自然语言接口提出了一种基于注意力增强的编码器-解码器神经网络的模型。

除了序列建模之外,我们还提出了一种树解码器,以利用含义表示的组成性质和格式正确性,以自顶向下的方式递归地生成层次结构。

为了对不同粒度级别的含义进行建模,我们提出了一种结构感知的神经架构,该结构按照从粗到精的过程解码语义表示。

我们所提出的神经模型仍然难以解释,在大多数情况下是黑盒。我们探索了估计和解释模型对其预测的信心的方法,认为该模型可以为用户提供有关不确定输出的即时且有意义的反馈。

我们估计了表明模型预测是否正确的置信度得分。此外,我们确定输入的哪些部分会导致不确定的预测,从而允许用户解释其模型。

模型覆盖是导致自然语言接口不确定的主要原因之一。因此,我们开发了一个通用框架来处理自然语言表达相同信息需求的多种不同方式。

我们利用外部资源为输入生成适当的释义,然后将其提供给神经释义评分模型,该模型将较高的权重分配给最有可能产生正确答案的语言表达。使用目标任务提供的监督信号对模型组件进行端到端训练。

实验结果表明,我们所提出的神经模型可以轻松地跨任务迁移。此外,可以通过考虑输出格式正确性、置信度建模和改善模型覆盖范围来增强自然语言接口的鲁棒性。

董力个人主页:http://dong.li/

董力本科毕业于北京航空航天大学计算机学院,博士毕业于英国爱丁堡大学,目前是微软亚洲研究院自然语言计算组高级研究员,研究兴趣是结构化数据与文本之间的转换。他曾获 2015 年微软亚研奖学金和 ACL 2018 最佳论文荣誉提名奖。

参考链接:

https://sigai.acm.org/awards/doctoral_dissertation_award.html

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业吴佳俊AAAI/ACM SIGAI博士学位论文奖
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

视觉问答技术

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

暂无评论
暂无评论~