Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

「2018中国AI英雄风云榜」年度人物榜 :「AI 天才」何恺明

编者按:2018年12月28日,由网易智能、清华大学数据科学研究院和24家评审机构共同评出的“2018中国AI英雄风云榜”年度人物榜单揭晓,10位人工智能领域的从业者获奖。其中,何恺明以扎实的学术成就和多数投票获得了本次评选的技术新锐奖。

提到何恺明,很多学术界的人都将其视为“天才型”的人物。从“高考满分状元”,到CVPR最佳论文奖“首位华人得主”,再到震惊学界的“深度残差网络”,这位“80后”青年才俊有着诸多传奇故事。

1. 广州:高考状元,少年天才

何恺明从小在广州长大,很早就展示了自己“天才”的一面。在广州执信中学就读时获得过全国物理竞赛和省化学竞赛的一等奖。

从网络报道看,执信中学老师当时对何恺明的描述是“性格比较内向,话不多,目标明确,从小就立志上清华大学”,“学习能力非常强,管得住自己,是一个学者型学生”。

2003年,全国的高考时间第一次提前到6月7日,但是对于何恺明来说,他已经在5月份拿到了保送清华的资格。

但是,何恺明仍然决定参加高考,测试自己实力到底如何。

高考结果出炉以后,何恺明获得了满分900分的成绩,成为当年广东省9位满分状元之一。当时的高考颇受人们的重视,何恺明也成为媒体们争相报道的对象。


2. 北京:13年学霸之路,两次CVPR大奖

2003年9月,顶着“保送”和“广东省理科高考状元”的光环进入清华大学以后,何恺明却放弃了原本保送的机械工程及其自动化专业,转而选择基础科学班。

说到清华大学的基础科学班,这个项目于1998年开始设立,被看做是培养数学、物理等基础学科人才的尖子班,不过课程压力比较大,需要同时学习数学系、物理系的大部分基础课程。

2007年,还未毕业的何恺明进入微软亚洲研究院(MSRA)实习,处于对计算机图形图像课程的兴趣,他选择加入了MSRA视觉计算组,其实习导师便是现任旷视科技首席科学家的孙剑。而当时MSRA视觉计算组负责人是CV领域的大师汤晓鸥。

何恺明自此正式进入CV(计算机视觉)领域。

在实习的头一年里,何恺明做了一些计算机视觉相关课题,虽然都失败了,但他接触到了很多新的知识,也真正进入到计算机视觉领域的研究上。随后,何恺明对于去雾算法的研究大获成功,经过反复的推敲和打磨之后,何恺明的论文获得了计算机视觉领域国际顶级会议CVPR(IEEE计算机视觉与模式识别大会)2009最佳论文奖。

这一奖项,是CVPR创办25年以来,首次有华人乃至亚洲学者获此殊荣,这也让论文的第一作者何恺明在CV领域一举成名。

CVPR 2009最佳论文截图,作者是何恺明、孙剑、汤晓鸥

在获奖前后,何恺明进入香港中文大学攻读研究生,师从AI大师级人物汤晓鸥。推测来看,师生二人在微软就已结识。不过,攻读研究生期间,何恺明仍然在微软亚洲研究院参与相关研究。

何恺明(右)与导师汤晓鸥

2011年博士毕业后,何恺明正式加入微软亚洲研究院工作。

后来,何恺明与同事开发了深度残余网络(ResNets)。在2015年的ImageNet图像识别大赛中,何恺明和他的团队用“图像识别深度差残学习”系统,一举击败谷歌、英特尔、高通等业界团队,荣获第一。成为举世闻名的152层深度残差网络ResNet-152。

事实证明,ResNets目前已经成为计算机视觉领域的流行架构,同时也被用于机器翻译、语音合成、语音识别和AlphaGo的研发上。

CVPR 2016最佳论文

在2016年的CVPR上,何恺明凭借ResNets论文再次获得最佳论文奖,也是目前鲜有的一人两次获得CVPR最佳论文奖的学者。

2016年8月,在工作5年之后,何恺明离开了微软亚洲研究院,飞往美国,加入了Facebook AI研究院(FAIR)。


3. 硅谷:新的篇章

加入FAIR之后,何恺明开启了新的人生。他在Facebook上写到,“2016年我的人生道路有了重大改变,还结交了很多新朋友。”

2017年3月,何恺明和同事公布了其最新的研究Mask R-CNN,提出了一个概念上简单、灵活和通用的用于目标实例分割(object instance segmentation)框架,能够有效地检测图像中的目标,同时还能为每个实例生成一个高质量的分割掩码(segmentation mask)。同年,这篇《Mask R-CNN》论文获得另一个计算机视觉顶级会议ICCV最佳论文奖,何恺明依然是第一作者。与此同时,何恺明还获得了最佳学生论文奖(第四作者),论文是《Focal Loss for Dense Object Detection》。

Mask R-CNN示例

ICCV 2017最佳论文

ICCV 2017最佳学生论文

2018年1月,FAIR宣布开源自己的顶级物体检测研究平台 Detectron,为广大研究人员提供灵活、快速的模型实现和评估途径。这个平台中就集合了何恺明与其同事发布的多篇论文成果。

2018年6月,第31届CVPR在美国盐湖城召开,何恺明获得了PAMI青年研究者奖。

2018年11月,何恺明等人在arxiv上又挂出一篇重磅论文《重新思考“ImageNet预训练”》,称ImageNet 预训练却并非必须。论文显示,何恺明和其同事使用随机初始化的模型,不借助外部数据,取得了不逊于COCO 2017冠军的结果,再次引发业内关注。

故事还在继续....

不久前的1月10号,何恺明团队在最新的论文《Panoptic Feature Pyramid Networks》中提出“全景FPN”,聚焦于图像的全景分割任务。他们结合 Mask R-CNN 与 FCN 构建出一种新型的全景分割模型,设计了单一的网络Panoptic FPN。该方法可能成为全景分割研究的强大基线。

4. 后记


何恺明很少接受媒体采访,当网易智能联系到这位最牛的学者时,美国已近圣诞节。但何恺明回复称自己仍在繁忙的工作,并表示非常荣幸能够获得此项荣誉。希望何恺明老师有机会能回到国内,与中国行业进行交流。再次祝福这位天才型的AI学者工作顺利,猪年快乐!(AI英雄风云榜评审会2019年1月于北京)

来源:网易智能

本文部分人物经历素材引自大数据文摘、SME情报员、机器之心等,网易智能进行了核实

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

产业何恺明
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
Qualcomm机构

高通公司(英语:Qualcomm,NASDAQ:QCOM)是一个位于美国加州圣地亚哥的无线电通信技术研发公司,由加州大学圣地亚哥分校教授厄文·马克·雅克布和安德鲁·维特比创建,于1985年成立。两人此前曾共同创建Linkabit。 高通公司是全球3G、4G与5G技术研发的领先企业,目前已经向全球多家制造商提供技术使用授权,涉及了世界上所有电信设备和消费电子设备的品牌。根据iSuppli的统计数据,高通在2007年度一季度首次一举成为全球最大的无线半导体供应商,并在此后继续保持这一领导地位。其骁龙移动智能处理器是业界领先的全合一、全系列移动处理器,具有高性能、低功耗、逼真的多媒体和全面的连接性。目前公司的产品和业务正在变革医疗、汽车、物联网、智能家居、智慧城市等多个领域。

http://www.qualcomm.com/
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
网易机构

网易成立于1997年6月24日,是中国领先的互联网技术公司,为用户提供免费邮箱、游戏、搜索引擎服务,开设新闻、娱乐、体育等30多个内容频道,及博客、视频、论坛等互动交流,网聚人的力量。

https://www.163.com/
何恺明人物

Facebook AI Research研究科学家。Residual Net提出者。

汤晓鸥人物

汤晓鸥,现任香港中文大学信息工程系系主任,兼任中国科学院深圳先进技术研究院副院长。中央组织部“千人计划”入选者,全球人脸识别技术的“开拓者”和“探路者”,商汤科技联合创始人。2014年3月,汤晓鸥团队发布研究成果,基于原创的人脸识别算法,准确率达到98.52%,首次超越人眼识别能力(97.53%)。

相关技术
孙剑人物

孙剑,男,前微软亚研院首席研究员,现任北京旷视科技有限公司(Face++)首席科学家、旷视研究院院长 。自2002年以来在CVPR, ICCV, SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文100余篇,两次获得CVPR最佳论文奖(2009, 2016)。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 (ImageNet分类,检测和定位,MS COCO 检测和分割) ,其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

深度残差网络技术

残差网络是为了解决深度神经网络(DNN)隐藏层过多时的网络退化问题而提出。退化(degradation)问题是指:当网络隐藏层变多时,网络的准确度达到饱和然后急剧退化,而且这个退化不是由于过拟合引起的。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

掩饰的基于区域的卷积神经网络技术

Mask R-CNN是一个概念上简单,灵活和通用的对象实例分割框架。 该方法能够高效地检测图像中的对象,同时为每个实例生成高质量的分割蒙版。 这种方法通过添加一个用于预测对象蒙版的分支来扩展R-CNN使之更快,该分支与现有的用于边界框识别的分支并行。

旷视科技机构

旷视成立于2011年,是全球领先的人工智能产品和解决方案公司。深度学习是旷视的核心竞争力,我们打造出自研的AI生产力平台Brain++并开源其核心——深度学习框架“天元”,实现了算法的高效开发与部署。在持续引领技术进步的同时,我们推动AI产业的商业化落地,聚焦个人物联网、城市物联网、供应链物联网三大赛道,为个人用户带来更出色的美学体验与安全保障、让城市空间更有序、并帮助企业实现工业、仓储数字化升级。我们提供包括算法、软件和硬件产品在内的全栈式、一体化解决方案。

https://www.megvii.com
推荐文章
暂无评论
暂无评论~