Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蛋酱编辑

北大谢涛获ASE 2021最有影响力论文奖,成为首位华人获奖学者

一篇发表于 ASE 2007 的经典论文,让 ASE 2021 将「最有影响力论文」奖项颁给了北京大学教授谢涛和当时的博士生 Suresh Thummalapenta。

近日,软件工程国际顶级会议 ASE 2021 公布了「最有影响力论文」奖项(Most Influential Paper Award),北京大学计算机科学技术系讲席教授谢涛和他早年指导的前北卡州立大学博士生 Suresh Thummalapenta 共同获奖。

ASE 是软件工程领域的顶级国际会议,创办于 1986 年。一般来说,年度 ASE 最有影响力论文奖是从之前 15 年左右(包括 14、15、16 年前)在 ASE 会议上所发表所有论文中选出最具影响力的论文。本次获奖的论文是谢涛与 Suresh Thummalapenta 合作的 ASE 2007 年论文《PARSEWeb:A Programmer Assistant for Reusing Open Source Code on the Web》。

论文链接:https://taoxiease.github.io/publications/ase07-parseweb.pdf

这一研究是从 ASE 2006、ASE 2007、ASE 2008 三年 181 篇被录用论文(三年共 713 篇投稿)中选出来的获奖论文。

在软件工程三大国际顶会 ICSE、ESEC/FSE、ASE 的历年最有影响力论文奖(ICSE MIP Award,ESEC/FSE Test of Time Award, ASE MIP Award)获奖作者中,谢涛是三位华人之一(另外两位是 Hongjun Zheng 和 Amy J. Ko),也是迄今获得 ASE 最有影响力论文奖的唯一华人作者。

在今年 11 月将线上举行的 ASE 2021 会议中,谢涛教授和 Suresh Thummalapenta 博士将在特邀大会报告中对该论文及其影响力进行分享。

获奖论文介绍

程序员通常重用现有的框架或者数据库来减少软件开发工作量,其中的常见问题是,程序员知道他们需要什么类型的对象,但不知道如何使用特定的方法序列获得该对象。

为了解决这个问题,谢涛和 Suresh Thummalapenta 开发了一种方法,以「 Source object type → Destination object type」形式的查询作为输入,并推荐常用的 Method-Invocation Sequence(MIS),MIS 可以将 Source 类型的对象转换为 Destination 类型的对象。该方法使用代码搜索引擎(CSE)来收集相关的代码样本,并对其进行静态分析以提取所需的序列。由于代码样本是通过 CSE 按需收集的,因此该方法并不局限于任何特定框架或库的查询

他们使用一个名为 PARSEWeb 的工具实现了该方法。PARSEWeb 与 GCSE 协同,以搜索具有给定 Source 和 Destination 对象类型用法的代码示例,并下载代码示例结果以形成本地源代码存储库。PARSEWeb 分析本地源代码存储库,使用序列后处理器提取不同的 MIS,并聚集类似的 MIS。提取的 MIS 可以作为给定查询的解决方案。PARSEWeb 使用几个排序启发式方法对最后一组 MIS 进行排序。此外,PARSEWeb 还使用一种叫做查询分割的额外的启发式方法,它有助于解决给定查询的代码示例被分割到不同源文件中的问题。

在实验阶段,研究者进行了四种不同的评估,表明该方法在解决程序员的查询需求方面是有效的,此外还证明了 PARSEWeb 比此前的相关工具(Prospector 和 Strathcona )表现更好。

PARSEWeb 这项研究首次把数据挖掘机器学习所用的软件制品数据源从单个或几个开源系统拓宽到整个互联网上的软件制品,成为大代码、软件大数据重要产业和学术方向的先驱「开荒者」。这个范围的拓宽是基于代码搜索和代码挖掘的有机结合,有效地解决了在辅助软件工程任务时相关数据点不足的问题。

这篇获奖论文也是数据驱动的智能化软件开发领域的最早期经典代表作之一,以大代码挖掘的手段来实现智能「程序员助手」。其所贡献的技术首次有效地解决了在一个特定软件开发问题上的数据驱动软件自动化:如何自动地合成方法调用序列来获取一个给定类的对象。

根据 Google Scholar,该论文当前引用数超过 510 次。尽管该论文比其它历年获奖论文要发表得晚,该论文在历年获得 ASE 最有影响力论文奖的 13 篇论文之中引用数排名第 4。

关于谢涛教授

谢涛 1997 年本科毕业于复旦大学,2000 年在北京大学获得计算机科学技术的硕士学位(师从梅宏教授),并于 2002 年和 2005 年在美国西雅图华盛顿大学获得计算机科学技术的硕士和博士学位(师从 David Notkin 教授),目前是美国伊利诺伊大学香槟分校有终身教职的正教授。之前他从 2010 年 8 月到 2013 年 6 月为美国北卡州立大学有终身教职的副教授 (提前一年晋升),2005 年 8 月到 2010 年 7 月为美国北卡州立大学助理教授。他曾在微软亚洲研究院和微软研究院(雷德蒙)担任访问研究员,并常年担任微软研究院和华为公司的咨询顾问。

谢涛是美国 AAAS Fellow、IEEE Fellow、ACM 杰出科学家、CCF 杰出会员,曾获 2020 年科学探索奖,国家自然科学基金委海外杰出青年科学基金以及其延续资助、美国 NSF Faculty CAREER Award、ACM SIGSOFT 杰出服务奖、IEEE 计算机协会软件工程技术委员会(TCSE)杰出服务奖等。

谢涛的主要研究领域包括软件工程,系统软件,软件安全,做出了一系列对软件产业有高影响的研究工作,曾获微软研究院杰出合作者奖(全球 32 位获奖教授之一)、微软研究软件工程创新基础奖、谷歌教授研究奖、Facebook 研究奖、IBM Jazz 创新奖、IBM 教授奖等。

获奖论文的共同作者 Suresh Thummalapenta 现为微软研究员。Suresh 在印度安得拉大学获得学士学位,后在北卡罗来纳州立大学获得硕士学位,并于 2010 年获得北卡罗来纳州立大学计算机科学博士学位。在加入微软之前,Suresh 在印度 IBM 研究院拥有三年的工作经验。

参考链接:
https://cs.pku.edu.cn/info/1084/2209.htm
http://ase-conferences.org/Mip.html
http://taoxie.cs.illinois.edu/bio-cn.html

产业获奖论文ASE谢源
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~