从零道一来源

第一篇学术演讲准备两个月,去了谷歌却做不了深度学习,听Facebook田渊栋谈人生挑战与选择

第一次 15 分钟的演讲准备了两个月、毕业就进谷歌却只能当螺丝钉、从研究员到研究经理面临角色转换…… 在最近的一次访谈中,Facebook 人工智能研究院(FAIR)研究员、研究经理田渊栋谈了谈自己从求学到工作一路走来的经历和感悟,还给出了一些职业建议以及对于 AI 发展的看法。


田渊栋, 上海交通大学本硕,博士就读于卡耐基梅隆大学机器人系,现任 Facebook 人工智能研究院(FAIR)研究员和研究经理。

从 Google X 的无人车组,到后来 Facebook 的围棋 AI 项目 -- OpenGo,多重身份的加持和前沿、专业的研究为田渊栋吸引了相当多的目光。

人工智能研究之外,他还保持着长期的写作习惯,包括个人博客、知乎专栏、短篇和中篇小说,甚至完成过一部 30 万字的长篇小说。

近日,田渊栋做客播客「从零道一」,分享了自己在求学、求职过程中的经历和心得体会,完整访谈内容时长 66 分钟。

音频地址:https://www.ximalaya.com/keji/7070786/332051507

从上海交大到 CMU

从零道一:能不能和大家简单讲一讲,您是在哪里长大,大学之前在哪里读书?

田:我是上海人,从小在上海长大的。在进上海交通大学之前,我一直在上海向明中学就读,在那边我大概度过了初中、高中的 7 年时间,高考之后就到了上海交通大学。

所以我基本上整个人生的前 22 年都在上海,没怎么出过门,除了旅游之外没怎么到外面去。但我大三的时候去了美国普渡大学做交换生,那个时候有很多想法,有了新的思路和新的见解,也见到了一个比较大的世界。回国读硕士之后,我花了很多时间在微软亚洲研究院实习,去了三段,总共加起来有一年的时间。那个时候开阔了很多思路,见到了很多人,结识了很多朋友。

这些经历也让我觉得其实自己还是比较适合读博士,所以后来就去了 CMU。

从零道一:当时(在交大)读的是计算机是吧?

田:我当时进的是上海交通大联读班,进去两年之后可以让你选专业。所以,其实我前两年是在一个偏向数学物理的基地班里读的,大三的时候再选专业。当时,班里仅有 10 个人选计算机,我是里面的一个,有 100 多个人都选了电子信息和电气工程。所以,我的经历可能和直接去计算机系的同学不太一样。

上海交通大学。

从零道一:你是去了微软亚研之后发现自己对研究感兴趣的吗?有没有想过博士之外的路径?

田:其实想过很多。硕士毕业之后你可能觉得出国已经有点晚了,很多人觉得你那时候都已经二十四五岁了,还有很多的事情要做。当时也有很多选择,比如去互联网公司做软件工程师,然后一点点往上走。那时候有很多公司都可以选。这也是我想过的一条路。但是最后还是觉得科研比较有趣,对博士也有些憧憬,所以最后还是去读了博士。

从零道一:你博士阶段去了卡内基梅隆的机器人学专业,当时申请的时候是怎么考虑的?去了之后感觉那个地方是不是你想去的?

田:其实说实在的,我当时申请的时候自己(实力)也不是特别强。我去微软亚研的时候也相当于一个乡下孩子跑到北京去,终于开了眼界,看到还有很多事情原来可以是这么做的。所以,当时我的申请材料、文章数目之类的也不是特别好。但幸运的是,我最后实习跟的是港中文的汤晓鸥老师,拿到了他的推荐信,所以就申请到了 CMU 的机器人学专业。这个已经是我当时最好的选择了。

从零道一:CMU 也有很多专业、实验室可以选,当时是怎么决定选哪个组、关注哪个领域的?

田:这个需要跟导师有很多的交流。在刚入学的时候,CMU 有一个「marriage process」,就是说你要跟导师达成一个 5 年的协议。所以,你要跟很多导师聊,聊他们的研究方向、研究思路,还有就是跟学生去聊,问一下他们的出路,他们可能会去哪些地方,然后综合考虑。当时我还比较内向,英语也不是很好,托福口语只有 19 分,所以当时跟老师、学生聊还是会有些费劲。就这样,我选到了第一个导师,他的学生都觉得他人挺不错的,这点是很重要的。不过他对机器学习不是很感冒,方向更偏向于 Low-Level Vision,主要是基于物理的计算机视觉

田渊栋博士期间的导师 Srinivasa Narasimhan。

之后的情况就是,基本上所有的技术问题都是我自己来解决,自己看文章,导师辅导我的写作、演讲以及和别人交流。后来的结果表明,这样一个组合还是不错的。所以,我在自己的方向上有一定的自由度,这也是博士生应该要有的一个标准。

天生内向,第一次学术演讲背下整篇讲稿

从零道一:你刚去的时候口语只有 19 分,后来是怎么成功地在新的环境中表达自己的?

田:这其实是一个很漫长的过程,也可能是我在这五年里最大的收获。抛开专业不谈,这对我个人的性格成长和人格塑造是一个非常关键的时期。别人可能觉得这个关键时期是八九岁,但从我自己的经历来看,我觉得这个事情任何时间都能发生,只要愿意花时间去做。  

首先一点是要有自信,比如对自己的研究有自信、有想法,愿意把自己的想法说出来。这样就相当于打开了一个开关,就是我愿意和别人说话,这个很重要。有了这个之后,口语才会慢慢地练上去,你才会知道自己要怎么说才能让别人听懂。我以前说英语非常快,说完一句话别人可能听不懂。所以对方未必是不想理你,他们可能想理你但是听不懂。但我会觉得:「我是不是说错了?是不是说得不够好?」你会下意识得把问题归咎到自己身上,然后你就不愿意和别人说话了,最后就形成了恶性循环。所以,这是非常重要的第一步。

我高中的时候非常内向,有一次英语课回答问题,站了 5 分钟一句话都说不出来。进 CMU 之后,整个交流的过程就变得比较流畅一点。一旦发现我说的话别人愿意听,愿意思考,我说的话是有意义的话,交流的欲望就逐渐坚定起来。这个过程其实非常重要,因为如果没有这个阶段,比如我硕士毕业直接去公司里工作,那么我当时的性格可能对我之后的职业发展造成很大的不利影响。

从零道一:你读博的时候肯定也要做不少学术演讲,可不可以谈谈你当时是怎么提升自己的演讲能力的?

田:我第一个演讲准备了两个月。我属于那种一上台就「见光死」的人,只要一上台,别人看着我,我就一句话也说不出来。你要让这样的人上台演讲 15 分钟,是一件非常非常难的事情。唯一的办法就是把整个演讲从头到尾、一字不落地背下来,这样才能保证我就算是睡着了也能说出来。除此之外,我还把每句话的重音标了出来,因为那个时候我说话很快,背过演讲稿之后就会很紧张地以背书的方式把话说完,效果就很不好,别人可能也听不懂你在说什么。但是如果你记得重音是哪个词,可能就会下意识地放慢节奏

最后,我上台之后的过程也比较流畅,因为只要能熬过开头的三四分钟,你就开始变得有自信了,觉得「我还可以」。慢慢地,你就会越来越好。

博士期间最大的挑战

从零道一:从专业的层面来讲,你觉得博士期间遇到的最大的挑战是什么?

田:读博其实每个人都不太一样。有些人可能是老板规定太死,他没办法发挥。但对我来说,情况可能是倒过来的。老板在这方面其实懂的不多,所以最重要的是我能不能自主地找到一个方向并攻克它,这可能比跟着老板做要难多了。

我可能有一种倾向,就是做非常难的问题,有一种想要攻克难题的决心。但是,怎么把这个决心变成一个可实现的目标是一个很困难的问题。

我在知乎的一篇文章(《博士五年之后五年的总结》)中也写过,这五年我学会的最重要的事情是怎么把一件事分成几部分来做,这样才能开始做比较大的事情。刚开始的时候,我觉得我想把很难的问题解决掉,别人都解决不了我去解决。

作为一个刚来的博士生,想要攻很难的问题,心气是很高的,但怎么落地是一个很难的问题。你可能会花很多时间去思考,而且这个思考是漫无边际的。今天想这个,明天想那个,非常地不连贯,非常天马行空,你自己觉得好像是在做研究,但其实是在浪费时间。因为思路没有落地的结果就是不能存盘,下一次你还要从头开始想。而且,它无法形成一个持续的步骤,这样对自信的打击也是很大的。比如说你可能思考了很长时间,然后发现:哎呀,不是很有效果,怎么办呢?

经过了博士阶段的几年之后,你才会知道自己先要去想什么,再去想什么;什么能做,什么不能做;什么是自己力所能及的;什么是别人已经做过的,什么别人还没做,还有机会。这种对于学术的感觉也是通过博士这五年慢慢练出来的。

田渊栋博士论文:《Theory and Practice of Globally Optimal Deformation Estimation》

选择深度学习,但不被看好

从零道一:你当时做机器学习的时候,深度学习还不是非常火,所以你当时做的时候完全是出于自己的兴趣吗?还是说你觉得它有前途?

田:我觉得还是兴趣更多一点,我想去了解当时的一些学习算法为什么有效果。相对来说,我更加心理驱动一点,不是特别受外界的影响。当时我去的时候,机器学习并没有那么火,甚至有师兄跟我说不要去做机器学习,我导师也说机器学习没什么用。

从零道一:但是后来机器学习突然就火了,你当时是在 CMU 还是已经工作了?

田:深度学习刚开始火的时候是在 2012 年年底到 2013 年年初,那个时候学术界已经开始有一些迹象,大家都在讨论 Deep Learning 这个东西到底有没有用。当时我问了很多人,很多人都持怀疑态度,第一句话就是「他们一定是搞错了」,「他们肯定代码有问题,在测试集上训练的话,效果肯定很好啊」,什么样的话都有。

当时我看了之后觉得很有意思,这也牵扯到我的职业选择问题。当时我就跟我的导师说,我想去做一下这个 Deep Learning。我导师一百个不愿意,说这个不可靠。

但是,我当时觉得 Deep Learning 效果还不错,而且我也在想一些层次模型的问题。当时我的一篇论文还拿了一个最佳论文奖提名,做的也是层次模型。二者有一些共通的地方,所以我在想是不是有一些可以借鉴的地方。

从零道一:那个时候是你博士刚读完吗,还是快读完?

田:那是快读完的时候,我是 13 年 9 月份毕业的,AlexNet 刚出来的时候是 2012 年的 NeurIPS。AlexNet 的代码开源之后我还去问过作者怎么跑这个代码。但是相对来说,整个大组里还是持一个比较怀疑的态度,搞计算机视觉的人普遍不相信。这个时候我正在找工作。

毕业就进谷歌:是个「好工作」,但激情消失了

从零道一:博士之后你第一份工作是去了 Google X,做和无人车有关的项目,能不能讲讲当时找工作的一些想法?

田:首先,我当时想要去尝试一下各种各样不同的东西,无人车是挺有意思的一个方向,另外,我听说那边可能开始要用深度学习,所以觉得很感兴趣。第二个就是现实问题,因为读了五年博士,毕业之后肯定想找一份「好工作」。当时那个组大家都觉得还不错,技术上相对来说是比较前沿的。无人车大概在 16、17 年开始大火,在这之前 Google 就开始做了,所以后来就去了这个组。

我刚去的时候有点兴奋,但是后来觉得跟我的期望还是有距离的,所以待了一年多就走了。

从零道一:为什么会觉得跟自己的期望有差距?

田:有几个方面的因素吧。首先它是一个保密组,允许你做很厉害的工作,但是你不能对外说,这样对将来的工作不是很有利。你要跳槽的话,别人会问你之前做什么,你说「我不能说」。这是一个非常现实的问题。第二个问题就是,我当时进去的时候还很兴奋,问我当时的老板:「我们是不是可以用深度学习啊?」但是进去之后发现,我做不了深度学习。当时 GPU 还是一种比较稀缺的资源,Google 内部是有配额的,做深度学习的主要是一些比较资深的工程师,他们有时间和权限去跑一些深度学习模型。所以我当时相当于是打杂的,做的是一些没有那么兴奋的东西,感觉做下去也没有多大的前途。最后,你会慢慢知道自己想要什么。所以一年之后就想要跳槽了。

从零道一:我记得在知乎的帖子上看到你白天做 Google X 的工作,晚上自己做研究,是不是当时就觉得自己对研究更感兴趣?

田:对,是这样。我当时觉得上班就是做一天和尚撞一天钟。上班写一天代码之后,晚上回去做自己想做的事。我觉得上班之后的状态和读博士时的状态是完全不一样的。博士期间,我还是挺喜欢花很多时间去研究、去思考,但是去谷歌之后,好像这种激情就没有了,觉得自己就是来赚钱的。所以,我觉得这可能不是一个适合自己的地方。

我在公司没有办法做深度学习,但是我可以看,找篇文章闲暇时间自己做做。当时我还自己搭了个小平台。当然,这样也能做(研究),但是会很累,而且没有办法和其他研究人员交流。当时那种状态还是很辛苦的,所以最后还是决定要走。我不可能一直留在谷歌,白天做一件事,晚上做另一件事,这不是长远之策。

跳槽 Facebook AI 研究院

从零道一:所以在过了一段时间的双面人生之后,最终还是选择做研究,去了 Facebook 的 AI 研究院。那您能否讲讲您做出选择的过程是怎样的?

田:当时去面试了一些地方,不只是 Facebook。除了面试之外,也要了解相关领域的一些情况,比如深度学习发展到什么程度了,这些都是要做准备的。我记得我当时去 Facebook 面试,准备了差不多一个礼拜。我把相关的文章都看了一下,了解了一下大致情况。

2014 年,深度学习的进展是非常非常快的,比如 CV 领域的目标检测,性能一年之内就提高了很多。我看了之后就觉得,如果我再不跟上就完蛋了。如果我继续在谷歌写一些简单的代码或者做一些简单的东西,肯定是不行。

还有一点就是怎样去说服家里人,因为家里人会觉得在大公司很稳定。对家里人来说,如果在大公司工作一年就走,这其实是一个很大的问题。当时我在像知乎这样的平台也写过一些帖子,讲我在公司待一年就走的情况,有人就会怀疑:这个人在一个公司只待一年,说不定去新公司也是只待一年就走了,没有长性。这种质疑不仅是外界会有,在家人中也会有。这种时候怎么办呢?那就要考虑跳槽过去之后对自己有什么帮助,还有就是考虑了最差的情况是什么样的。最后觉得最差的情况也还可以吧,也不会特别糟糕,本来起点也不高嘛,所以要跳槽也是可以跳的。

确实当时也在想,如果要去一个自己想去的地方,那么接下来就要花很多时间和精力去把这件事情做好。尤其在当时,我也不是做深度学习科班出身的人,也不是出身于三巨头的相关研究所,我也是半路换到这个方向,所以要付出比别人更多的时间和精力。

从零道一:那去了 Facebook 之后,是不是瞬间就觉得这是你想去的地方?还是花了一段时间适应?

田:我觉得好像没有特别长的适应期,因为那个时候 Facebook 还是一个相对小的公司,所以工作比较灵活。它不像谷歌那样条条框框很多,有各种各样的限制。比如在注释后加空格就会分为两派,有些人加一个空格,有些人加两个空格。两类人还会因此吵起来。但是我对这个没有什么兴趣。在 Facebook 就没有那么多条条框框,相对来说比较自由。另外一点是因为我在 Facebook 是做研究工作,要看一些文章,了解一些相关领域的研究情况,这些都是我想做的事情。我就觉得我好像回到了之前读博的时候,我觉得这样的状态很好,这一点和在谷歌差很多。

从零道一:所以每天的日常工作也完全不一样,对吗?

田:对,完全不一样。当然我不能就这样把谷歌一棒子打死,可能只是无人车这个组存在这样的问题。我当时也拿到了 Google Research 的 offer,如果我当时去那边,可能情况就完全不一样,所以也不能说是谷歌的锅。我到了 Facebook 之后就好像回到了读博时的状态,特别有兴奋感,在工作上特别有动力,整个人就好像活过来了。不像之前觉得自己每天就是去工作,没有特别大的激情。

从零道一:在你当时做的研究项目里,你觉得哪个最让人兴奋?

田:一个就是围棋这一块。因为当时我也不是做强化学习的,以前我是做 CV 的,但也不是做大家认为的偏实践的计算机视觉的工作,而更多是非凸优化的理论研究。后来我也是为了围棋这个游戏去学习一些强化学习的课程,去看文章,去思考怎么样去做一个更好的工作,然后现在我成为一个研究强化学习的人。可以说我也是半路出家,这个过程是一个很好的学习过程,我能够感觉到我从一个什么都不懂的状态慢慢到现在我能够看到其中的问题,找到一个方向,知道大家接下来该怎么走。特别是 OpenGo 在 2018 年之后能够受到大家非常多的关注,起初我没有想到我能做到这样,我觉得这是一个非常不错的结果。

第二个就是关于理论分析。理论分析也是我一直想做的,在无人车组时我就有这样的想法。大家都在埋头训练,但是其中有很多问题。这一部分我也是经历了一个慢慢的学习过程,可能一开始我会花很多时间悬想,但是没有特别多的结果。到现在就是慢慢知道怎么做,怎么样很快很有效率地去做出一个结果,怎么样处理下一步的工作。我觉得这是一个很大的收获。

主导开发 DarkForest

从零道一:能不能讲一讲你做这个围棋项目中遇到的困难、挑战,或者有没有哪些有意思的事情?

田:挑战和困难是非常多的,因为围棋涉及大规模的深度强化学习,需要大量的跨领域的知识组合。你不仅要知道强化学习怎么做,还需要搭分布式系统,保证训练能够进行,还需要调参。各种各样的东西都需要组合在一起,才能把系统的效果搞出来。所以这一点很锻炼人,它把本来并不交叉的领域放在了一起,这是一个非常好的项目。

从零道一:你会下围棋吗?

田:我会,但我的水平很差。我只要知道出了问题我怎么 debug 就行了。比如说围棋高手能够在某个问题出现之前就把问题看清,但对我来说,我可能要让机器先走个十步,我才能看出来。但这也没关系,因为机器一直在跑嘛,我完全可以让机器先跑。所以这个问题倒不大。围棋下得比较好的人可能还希望把自己的经验加到里面去,这其实对于 AI 的设计来说并不是有利的,因为我们希望 AI 能够自己学出来。

2016 UEC 计算机围棋大赛, DarkForest(左)与职业棋手小林光一九段(右)对弈。

从零道一:你刚才讲说做这个项目的时候需要跨领域的知识,当时你是怎么快速学到这些跨领域的知识,并且把这些知识投入到应用中的呢?

田:我觉得这个算是我的一个长处吧,很多东西我都能自己学会,只要我花时间花精力去做这件事。另外一个就是,我什么事情都愿意自己去尝试。因为深度强化学习是一个非常需要自己动手去尝试的领域。只有通过这种方式我才能知道什么东西是有效果的。这对我来说不是一个费力的事情。通过不停的实践,慢慢就可以知道怎么去做这个系统,然后很快地把效果提上去。

从研究员到研究经理

从零道一:我知道你刚进 Facebook 的时候是 Research Scientist,后来还成为了研究经理。能不能讲述一下自己从一个研究员到管理者的挑战和感受?

田:挑战肯定是有的。首先作为管理者,不仅需要把自己的工作做好,而且还要理解别人的想法和思路。作为一个 manager,我要考虑我能不能让下属成长,所以我就需要去理解他们在想什么,他们的诉求,他们的目标,他们的能力有什么局限。这些东西需要通过交流,包括一对一的交流,通过一些探讨和思考,慢慢地了解才能知道,再进行一个反馈。这其实是一个很重要的能力,能够理解别人是一个非常重要的挑战

从零道一:你说你从来不认为自己是一个非常成功的人,甚至有时候觉得自己比别人要笨。但是其实现在很多人都认为你现在做出来的研究是非常出色的,也是有很多价值的,那你觉得自己有现在的研究成果依靠的是什么?

田:我能依靠的首先是耐心,要有耐心,要愿意去磨一个问题。比如有一个问题我愿意去做,那么我并不在乎多快时间能做出来,可以慢慢来,只要方向是对的,思路是明确的,一点点就能够把这个问题挖下去,就可以完成。耐心是很重要的。如果一个月能专注做一件事,成果真的是惊人的。最怕的是一个人很聪明,但是浅尝辄止。一件事情做了一会儿不想做了就换一件事情做。这样可能就是人虽然非常聪明,但是没有办法把一件事情做好做实在。所以我觉得我自己笨,就笨鸟先飞,多花点时间做自己满意的东西。所以耐心是很重要的,尤其是现在这个时代大家都比较满足于快速的反馈,比如看个视频获取开心。但是做出大东西来还是需要专注很长时间来把事情做完,就算别人不看好你,你也会愿意做下去。现在这个社会普遍来说缺乏这种能力,但是有这种能力更容易做出大事情。

对于 AI 发展的看法

从零道一:从你的专业视角来看,当前人工智能处于一个什 么样的发展状态?特别是现在它的局限在哪里,哪些事是做不了的?

田:这个问题比较大,我觉得现在 AI 可能处在一波热潮之后回调的时间段。可能还会有一些改进提升,每年也有很多文章出来,但已经不像前几年那样非常火热,会常有一两件惊世骇俗的东西出来的样子。但重大进展也是有的,比如 OpenAI 的 GPT-3 还是很厉害的,能够生成很多有意思的对话。

另外一方面是很多人涌进了 AI 这个领域,使得竞争非常激烈。但是长远来说,我还是认为 AI 是一个很好的方向,是一个非常有前途的方向,这个方向是值得长期投入的。今后不管是哪个领域都会有 AI 的身影,它都能够做到自动化,减轻人的负担。但是现在 AI 的成果还是比较弱的,总体来说还是一个函数拟合器,给定输入输出,然后拟合一个函数且效果不错。

现在的 AI 谈不上有自我意识,谈不上有很强的推理能力。比如说有一些例子:AI 会回答问题,从文中找到一些很有意思的段落,研究下来发现,它也只是找到了问题和段落之间的一些关联,利用这些关联去寻找答案。围棋也是一样的,找到棋子的落点和它周围的棋子之间的联系,然后通过大量的自我对弈,慢慢找到联系,找到更好的解法。

本质上说,现在 AI 这个阶段已经产生很多有影响力的结果了,接下来一方面是怎样去理解模型在干什么,刷榜、提高性能都是常规操作,已经不能算是有突破了。如果能够理解 AI 存在的问题,能够理解神经网络的工作原理,理解如何避免神经网络出现一些 bug(比如对抗样本),这些是很重要的,这些对 AI 未来的发展有很大的影响。

我们并不希望使用自己也不知道为什么能 work 的东西,去左右自己的决策。比如说,最近发现用 AI 来做的很多东西存在偏见(bias),那么也只有理解神经网络是怎样工作的,才能克服偏见问题,这个其实是很重要的。

从零道一:有听众提问说,他是您知乎的粉丝,您之前提到过意识和智能是可以分离的,开发高智能的 AI 可以做很多人做不了的事情。但是根据我们的经验,人的直觉在处理问题时常起到画龙点睛的效果。那么在 AI 的智能中植入意识的做法可不可行?现在是否有尝试模仿人的直觉引入到人工智能领域研究的内容,进展如何?

田:首先我觉得,直觉这一点已经被引入进来了。比如在围棋这一部分,有很多的步法其实并不是计算机通过精密的搜索算出来的,而是通过大量对弈找到了直觉上比较好的步法,相当于不通过推理和意识,直接找到当前输入的一些模式,看到这些模式之后,反应过来该干什么。我觉得这是直觉在现在的机器学习框架下比较好的定义。

对人来说,直觉一定是很神秘的,因为人们并不知道是怎么得来的,但是对机器来说非常简单,就是看到了这些模式,然后反应出应该干什么。按照这种逻辑来看,现在的机器学习全都是直觉,但我们恨不得它能少一点直觉,多一点推理。

比如问一个问题:「这张图片里天空是什么颜色的?」然后机器说:「不用看,肯定是蓝的」。这就是直觉,现在的神经网络是靠直觉活着的,但是我们要加入高层的思考、推理、判断,这是很难的,也是现在要思考的问题。

给年轻从业者的职业建议

从零道一:您对对 AI 感兴趣的学生或者年轻从业者有什么样的建议?

田:其实前两天在知乎上有个帖子,是关于高考刚结束的学生有哪些选专业的建议。我觉得还是先把基础打好,这是非常重要的,AI 可以火,可以不火。我之前还看到有个帖子说:「如何看待算法岗灰飞烟灭?」,因为前两年实在太火了,所有人都愿意去做它,所以也许有些人在找工作时会遇到问题。现实上来说,我觉得还是要把计算机的一些基础知识打好,这个是非常重要的,因为不管怎么样,以后你可以做 AI,也可以去做其他的事情。出路会宽一点。这些基础知识在各个领域都共通,这是一个非常好的起点。

如果你直接做 AI 的话,问题是在于你可能会见到很多高大上的东西,这些东西可能过两年就不火了或者发现有比较严重的问题。因为整个 AI 领域和深度学习相对来说还是比较年轻的东西,每天有那么多 arXiv 论文,可能今天他说的是对的,明天就是不对的,这也是可能性很大的事情。所以一开始就去接触这些东西可能就会陷入一个误区:「稍微改改就能跑个新的东西出来,我为什么要学基础知识呢?」所以这样的方式可能对学习者没有特别大的帮助,还是要把基础打好。一个是计算机,一个是数学,这些基础知识都不会变,都是被很多人证明过这些东西都是有效果的,确实是有用的,所以这些还是要先学的。打好基础知识之后,再去做一些其他工作,去研究一些前沿的东西,这样对学习者的未来才都有好处。

应对焦虑和压力:最重要的是期望管理

从零道一:还有一个问题,就是如何管理自己的焦虑和压力,因为读博时的工作强度肯定是较大的,工作以后的节奏也会比较紧张,你是如何应对的?

田:最重要的是要有正确的期望,这可能是博士阶段培养的很重要的一项能力。为什么会有压力?是因为把目标设太高了,担心自己完成不了,特别是刚读博士的时候,明星师兄师姐在前面当榜样,自己差那么远,博士毕业生的方差又特别大。一是要知道自己能做什么,二是要把一个大的方向分成几个子问题,就可以一点点往前走了,不用怕自己完不成。

另外一个就是中国人经常习惯说「我能做」,但之后可能感到压力就焦虑了。所以要跟别人沟通,去说清楚「这个事情我做不到」和「这个事情我可以做」,这一点也很重要。

还有一个是自我管理,就是「我想做的事情一定能做成」。很多人可能不具备太强的自律能力,比如打算做一件事情结果躺下来刷手机了,这样也会产生压力和焦虑。如果有一个良好的时间管理方案的话,这方面的焦虑就会轻一点。

这两年我进步的地方主要在于,让自己做事的效率更高。比如同样用五个小时来做一个 project,现在的我比三年前的我能够更好地去完成,因为我知道哪些东西不需要自己写,在网上可以有现成的,或者可以查到,哪些我可以有更好的方案去解决,哪些我可以委托别人。这种思维上的计划性可以说是一直在改进的。不仅是对于项目来说,在研究方面也是一样的。比如怎样找到一个能做出来的项目,怎样去和别人沟通,应该是有一个清晰的方向。

扩展阅读:

专访 | 机器之心独家对话田渊栋:无监督学习具有超过人类的发展潜力

入门上海交通大学田渊栋GoogleFacebook
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
汤晓鸥人物

汤晓鸥,现任香港中文大学信息工程系系主任,兼任中国科学院深圳先进技术研究院副院长。中央组织部“千人计划”入选者,全球人脸识别技术的“开拓者”和“探路者”,商汤科技联合创始人。2014年3月,汤晓鸥团队发布研究成果,基于原创的人脸识别算法,准确率达到98.52%,首次超越人眼识别能力(97.53%)。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

知乎机构

作为中文互联网综合性内容平台,知乎将AI广泛应用与社区,构建了人、内容之间的多元连接,提升了社区的运转效率和用户体验。知乎通过内容生产、分发,社区治理等领域的AI应用,也创造了独有的技术优势和社区AI创新样本。

https://www.zhihu.com
田渊栋人物

田渊栋,Facebook人工智能研究院智能围棋、星际争霸项目负责人。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

暂无评论
暂无评论~