Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

深度对话杨植麟博士:NLP科研和创业的方法论

智源导读:杨植麟,循环智能联合创始人、智源青年科学家。如今仅28岁的他,曾于2011年至2015年在清华计算机系就读,本科期间师从唐杰教授;随后去往CMU读博,师从苹果AI研究负责人Ruslan Salakhutdinov 和谷歌首席科学家 William Cohen。在此期间先后以一作身份,发表了影响广泛的成果 Transformer-XL 和 XLNet,对自然语言处理带来了极大的影响。

在最近由“青源会”组织的青源Talk中,杨植麟博士分享了《从学习的角度看NLP的现状与未来》的报告。在此之后,智源社区邀请主持人张家俊研究员与杨植麟博士,就其科研及创业经验进行了深度对话。 

下面智源社区从对话中选出部分观点内容,分享给读者。 

文 / 贾伟 

张家俊(左):中国科学院自动化研究所模式识别国家重点实验室研究员、博士生导师,智源青年科学家,研究方向为机器翻译和自然语言处理等。

杨植麟(右):循环智能(Recurrent AI)联合创始人,智源青年科学家,NLP 领域知名青年学者,其作为第一作者发明的 XLNet 在20项任务上超越 BERT;其发明的 Transformer-XL 成为首个全面超越 RNN 的注意力语言模型。 

01 科研三经验 

张家俊:你从大二大三就开始跟着唐杰老师做科研,并且发了不少顶级论文;随后又在国外师从 Ruslan 和 Cohen 读博。在这段时间里,你有哪些比较深刻的经验?
 
杨植麟:我觉得有三点。第一,我们应该更倾向去做简单的 Idea。因为越简单的 Idea,反而越本质。
 
如果你去看历史,就会发现所有有影响力的方法,或者最后真的能沉淀下来的技术,都是非常简单的东西,只有简单的东西才能持久。反而是那些复杂的,例如以前大家做 QA,去搭各种非常复杂的架构,可能都不太本质,因为它太复杂,它的动机可能也比较奇怪。
 
我们经常会看到有人写论文时会写 “Simple Yet Effective”,其实正确的说法应该是 “Simple And Effective”,因为这两个目标能够同时满足,也是我们的最终目标。
 
所以我觉得简单很重要,而且是个优点,没有必要在论文里面专门把它写得很复杂。简单就是简单,简单是个优点。
 
第二,我们做科研,应当去对你定义一个 High-level 的或者Long-term 的Research Agenda,然后拆解这个问题,做到研究的每一步都确定自己到底要去解决这个问题中的哪个部分。
 
这是我从 Jason Weston(注:Facebook研究科学家、纽约大学客座教授) 身上学到的,他们整个组目前都是这样。从好几年前他就想去解决对话问题,然后他把对话问题拆解成很多子问题,然后每年去解决其中的一部分,最后拼起来就是一个比较好的系统。
 
我觉得这种研究方式就是长期思维,并不是这个 Idea 碰一下,那个 Idea 碰一下,最后靠运气来获得成果;而是形成一种体系化的研究路径,然后有计划地进行研究。当然中间可能会有很多新的灵感,但这些灵感也都是计划中的一部分。
 
第三,要始终认识到,最好的东西都还没做出来。之前我一直以为好的工作都已经被别人做出来了,已经没有机会做出好的工作了。当时我刚开始做NLP,Word Embedding、Memory 网络、Attention 等都出来了,站在那个时间点去看,好像没有什么东西可以做了。但事实上真正的好戏才刚刚开始呢,例如2017年就出现了 Transformer,2018年之后出现了各种预训练,今年有GPT-3等。所以其实最好的东西还没有到来。
 
这个是 Quoc V. Le(注:Quoc Le 为 seq2seq,AutoML 等工作的作者) 教给我的,他是我在 Google 的导师。在13、14年的时候,当时他发现,AlexNet 有了,LSTM 有了,Word Embedding 也有了,他就想是不是已经没有好东西可以做了。但后来发现并非如此,后面有更多好的东西出来。

站在今天来看,大家依然会提出许多很尖锐的问题,而且通过预训练的方法很难解决。这就说明还有很多问题值得做。所以千万不要想着说,现在已经没东西做了,因为最好的东西永远都在接下来的时刻。

02 四年 CMU 博毕的秘诀:快速迭代

 
张家俊:我们了解到,你只花了四年就从 CMU 博士毕业了;而 CMU,特别是语言技术研究所,学生的毕业年限基本上都在六七年以上。你是怎么做到的,以及当时是怎么规划你博士生涯的?
 
杨植麟:首先,我觉得基本面上还是运气比较好,赶上了一个 NLP 发展非常迅速的时代,正好有很多 Open 的问题可以去解决。解决了这些问题,相应的就会有一些成果。所以我觉得时代背景非常重要。
 
其次,我觉得最为重要的一点是,要快速迭代。我们做科研,其实并不是每个想法都正确,我们的 Idea 总会出错,而且大多数人的大多数 Idea 都是不 Work 的。我之前有个规律,就是把我的所有结果都写到Google Spreadsheet 里面,然后就发现每当写四五百行或者1000行,就会有一个 Positive 的结果。所以这就意味着,产出结果的速度,取决于你迭代的速度,你要迭代的足够快,才有可能快速地出结果。所以我觉得这是一个很重要的经验。
 
至于具体的规划。第一,可能因为当时我在本科阶段奠定一些基础,所以到CMU之后基本上就可以直接开始做研究了,这节省了一些时间。第二,在规划上是这样:读博士的前一两年,我去探索了几个不同的方向;后面两年则主要专注在一个方向上,然后把它做到极致。

03 XLNet提出的精髓:序列问题驱动

 
张家俊:你在博士期间,在语言模型上有两个非常好的工作,一个是 Transformer-XL,一个是 XLNet 。我看你之前的一些访谈说,你是在 Transformer-XL 失败之后,才想怎么去深入的思考语言模型这件事情,然后提出了 XLNet。但我在读 XLNet 这篇文章时,就有一个疑惑,整个模型你们是怎么凭空把它想出来的,你能不能介绍一下?
 
杨植麟:我觉得是这样,一般想到一个新的东西,可能会有几种不同的方式。
 
一种是从问题出发,然后一步一步去想怎么解决这个问题。这时,就会把这个问题拆分成子问题,然后再继续去解决子问题。
 
另一种则是从方法出发,有了现有的方法,怎么去做组合。技术的本质就是对方法做组合,把小的技术组合成大的技术,把老的技术组合成新的技术。
 
这两种方案一个是自下而上,问题驱动;一个是自上而下,方法驱动。
 
我们在做XLNet这个事情的过程中,更多的是一个问题驱动的方式。做的方式就是先看到有一个问题,然后我去工具集驱找有哪些东西可以解决这个问题;但在解决这个问题的过程中,我发现它会带来新的问题,然后我就再去找新的工具来解决这个新问题,大概是这样。
 
我们一开始想解决的问题是自回归和自编码。它们都有自己的优势,我们想让它们的优点统一起来。基于这个动机,我们想到之前看到过一些基于 Permutation 的思路,就想是不是可以把它拿来用。但拿来之后我们发现一个新的问题,就是虽然可以做 Permutation,但中间会有一些 Ambiguity 存在,然后我就去解决 Ambiguity。解决完之后发现还不够,又有新的问题,我们就提出了双流的 Attention 机制。所以它其实是一步一步的,通过这种序列的问题解决,最后形成了现在这样一个结果。
 
所以如果不去考虑中间的动机,可能就会觉得非常奇怪;但如果去推理中间的每一步,就发现非常合理。这也是问题驱动和方法驱动的区别。方法驱动的结果看起来就会非常合理。

04 GPT-4 会做什么?

 
张家俊:请你预测一下 GPT-4 会做什么?
 
杨植麟:我觉得会有一些不同的方向。
 
一方面,我们当然可以把它变得更大;另一方面可以去做 Multi-model 的预训练;再一方面,可以去改变它的架构,加入更多、更好、更可扩展的架构,或者用一个泛化能力更强的目标函数,把它显式地加到预训练中。
 
我觉得都是一些可行的方向。

05 NLP 独角兽成长之路的两大基本原则:年费 + 标准化

 
张家俊:你现在是循环智能(rcrai.com)的联合创始人。在真实的应用场景中也做了一些非常成功的落地工作。我跟工业界的人交流时就发现,有人说 NLP 创业很难出现独角兽企业。你同意这个观点吗?如果你不同意,怎么样才能成为一个独角兽?譬如说循环智能怎么样成为独角兽,或者如果你有一些其他的不同的看法?
 
杨植麟:首先我觉得这个命题本身确实值得商榷,因为要看怎么去定义NLP独角兽。如果去看纯做NLP的厂商,会发现在美国有很多对标的公司,它实际上已经是独角兽或者马上成为独角兽,比如 Asapp、People.ai、Chorus.ai、Gong.io等,它们都是以 NLP 为核心的一些初创企业,但估值已经非常高了。我觉得中国肯定也会诞生一些这样的企业,我觉得完全是有机会的。
 
我们从国内来看,其实已经有很多公司做得非常好了。如果我们把定义稍微放宽松一点,不只看纯做 NLP 的公司,可以看 NLP 加语音或者 NLP 加结构化数据,其实已经有非常多的公司做得非常好了,包括上市的也有很多。
 
所以市场的情况我觉得其实还是挺好,所以我觉得肯定可以产生独角兽。如果我们放宽一点定义,实际上已经产生了很多独角兽。
 
但为什么大家会形成这样的一个印象呢?我觉得其实这里面主要会有几块,做 NLP 既有一些与 to B 共通的地方,又有一些自己独特的难点。
 
首先,与 to B 共通的地方就在于说,在当前中国的商业环境下,你能不能用坚持用年费加标准化交付的方式去做。美国 SaaS (注:Software-as-a-Service,软件即服务)商业模式成功的一个前提是必须年费,必须标准化,不然 PS 或者 PE 就非常低。所以我觉得只有去坚持这两个东西。
 
现在我觉得中国其实 to B 可能面临的整体问题就是,怎么在一个特定行业里面去找到这样的机会,能够去做年费加标准化的产品。当然现在其实市面,很多人已经找到了这个方式,所以我觉得剩下的只是一个时间的问题。
 
其次,NLP 自己独有的一些难题,最核心的便是场景的碎片化。如果我做语音识别引擎,我只需要即插即用,基本没有新的边际成本;但如果是 NLP 的话,由于它跟业务绑定非常近,需要考虑业务的具体定义,然后才能真正落地产生价值,这里面的交付边际成本在早期会比较高。不过以后,我相信以预训练为核心。通过更大规模的预训练,可以降低它的交付成本,来缓解这个困难。
 
但另一方面,NLP 这种场景的碎片化,也正是它商业模型的一个优点。譬如如果直接做 ASR(注:自动语音识别)把语音转成文本,这是不产生业务价值的;必须在上面做一层 NLP 才行,因为 NLP 才是跟业务价值绑定的。在很多场景下,AI 产生最终价值的最后一英里,必须用到 NLP 的技术才能真正落地。所以,我觉得这也是 NLP 商业落地非常核心的东西。
 
所以我觉得既要看到好的一面,也要看到不足的一面。NLP 离用户近,能够产生最终的价值;而边际成本高,这是它的缺点,但这可以用预训练等方法来提升它的标准化程度。
 
综上来说,年费加标准化产品,我觉得坚持这两个原则,中国必然会产生 NLP 的独角兽企业。

(原文:智源社区 |  杨植麟:28 岁青年科学家,开挂人生的方法论

循环智能(Recurrent AI)
循环智能(Recurrent AI)

循环智能致力于借助原创的自然语言处理(NLP)和深度学习技术,搭建基于AI的销售策略生成与执行辅助系统,助力企业销售效率提升与业绩增长。

https://www.rcrai.com/
产业循环智能杨植麟
1
暂无评论
暂无评论~