Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩、蛋酱编辑

Transformer 五年引用超四万,六位作者创立五家创业公司,仅一位作者还留在谷歌

时隔五年,Transformer 的八位作者仅有一位还留在谷歌。

如果你在一家大厂做出了一份行业里程碑式的研究,那么接下来的职场生涯你会怎么走?继续留在这家大厂?换一家待遇更好的大厂?还是创业或加入有前景的创业公司?

Transformer(出自论文《Attention Is All You Need》)几位作者的选择或许有一定的代表性:其中六人选择创业或加入创业公司,只有一人选择继续留在谷歌,还有一位去了 OpenAI。

图源:推特用户 @Nathan Benaich。

这篇重要论文发表于 2017 年,如今引用量已经突破 41000。论文注释中写道,几位作者对这份研究做出了不同但同等重要的贡献(排名随机)。具体来说,他们的分工可以概括为:

  • Jakob 提出用自注意力替代 RNN,并开始努力尝试这一想法;

  • Ashish 和 Illia 一起设计并实现了第一批 Transformer 模型,并重度参与了 Transformer 架构的各方面工作;

  • Noam 提出了缩放点积注意力、多头注意力和无参数位置表示,并成为几乎每一个细节的参与者;

  • Niki 在原始代码库和 tensor2tensor 中设计、实现、调优和评估了无数的模型变量;

  • Llion 还尝试了新的模型变体,负责初始代码库以及高效的推理和可视化;

  • Lukasz 和 Aidan 花了无数天的时间来设计和实现 tensor2tensor 的各个部分,替换了早期的代码库,极大地改善了结果、加速了研究进度。


可以说,每位作者都有自己擅长的工作,对于行业也都有自己的预判。论文发表五年之后,他们都在做什么呢?以下是我们能够查到的信息。

Ashish Vaswani、 Niki Parmar:投身通用智能

2022 年 4 月 26 日,一家名为「Adept」的公司官宣成立,共同创始人有 9 位,其中就包括 Ashish Vaswani 和 Niki Parmar。



Ashish Vaswani 在南加州大学拿到博士学位,师从华人学者蒋伟(David Chiang)和黄亮(Liang Huang),主要研究现代深度学习在语言建模中的早期应用。2016 年,他加入了谷歌大脑并领导了 Transformer 的研究。

Niki Parmar 硕士毕业于南加州大学,2016 年加入谷歌。工作期间,她为谷歌搜索和广告研发了一些成功的问答和文本相似度模型。她领导了扩展 Transformer 模型的早期工作,将其扩展到了图像生成计算机视觉等领域。

Ashish Vaswani、Niki Parmar 等人共同创立的 Adept 是一家致力于用 AI 来增强人类能力并最终实现通用智能的公司。在阐述公司创立初衷时,创始人写道,「在谷歌,我们训练出了越来越大的 Transformer,梦想着有朝一日构建一个通用模型来支持所有 ML 用例。但是,这其中有一个明显的局限:用文本训练出的模型可以写出很棒的文章,但它们无法在数字世界中采取行动。你不能要求 GPT-3 给你订机票,给供应商开支票,或者进行科学实验。」

因此,他们打算创建一个通用系统,帮助人们在电脑前完成工作,「你可以把它想象成你电脑里的一个 overlay,它和你一起工作,使用和你一样的工具。使用 Adept,你能专注于你真正喜欢的工作,并要求模型承担其他任务。例如,你可以要求模型生成月度合规报告,所有这些都使用现有的软件,如 Airtable、Photoshop、ATS、Tableau、Twilio。」

Noam Shazeer:神秘创业者

Noam Shazeer 是谷歌最重要的早期员工之一。他在 2000 年底加入谷歌,直到 2021 年最终离职。



曾经,Noam Shazeer 和同事 Georges Harik 花了数年时间分析网页上的数据,理解词组及其协同工作原理。他们收集的数据最终被谷歌用于其 AdSense 产品,该产品会分析网页的文字内容并在上面贴广告。


2021 年,Noam Shazeer 成为了一家隐形初创企业的 CEO,名字叫做「CharacterAI」,关于这家公司的组织架构和业务模式,外界不甚了解。

Jakob Uszkoreit:发明「Transformer」名字的人,转向分子设计

2021 年,Jakob Uszkoreit 和 Rhiju Das 共同创立了 Inceptive,致力于通过高度可扩展的实验和深度学习的奇异结合来实现下一代 RNA 分子的设计。


在谷歌工作期间,Jakob Uszkoreit 参与了组建谷歌助理的语言理解团队,早期还曾从事过谷歌翻译的工作。


在当时《Attention Is All You Need》这项研究中,Vaswani 曾表示:「注意力网络听起来并不吸引人。」

最后,Jakob Uszkoreit 想出了「Transformer」这个名字:「我认为我们正在 transform 某些东西,当然,这只是在玩梗。」

Llion Jones:在谷歌开启下一个十年?

 Llion Jones 是目前 Transformer 作者团队唯一还留在谷歌工作的人。


他在英国圭内斯郡南部的 Abergynolwyn 长大,来到谷歌山景城园区之后,他曾感慨:「现在我工作地方的人数,几乎是我长大的村庄里的 100 倍。」


Llion Jones 现年 36 岁,曾在 Abergynolwyn 生活多年,完成在 Coleg Meirion-Dwyfor 的学业之后,他在伯明翰大学获得了计算机科学硕士学位。

但在毕业后的一段时间内,Llion Jones 没找到合适的工作。他曾经将简历投递给谷歌在伦敦的办公室,且经过了两轮电话面试。由于档期问题,Llion Jones 在收到谷歌的最终 offer 之前,已经入职了另外一家公司。

不过,18 个月之后,另一位谷歌招聘人员联系了他,Llion Jones 成为了一名谷歌人。从 2012 年开始,Llion Jones 一直在谷歌工作。这一任职时长差不多超过了谷歌九成员工。

Aidan N. Gomez:创立 NLP 平台,一年融资 1.7 亿美元

2021 年 5 月,Aidan N. Gomez 官宣成立新公司——自然语言处理平台 Cohere,基于自己训练的大型 NLP 模型为外界提供 API 服务。


Aidan Gomez 本科就读于多伦多大学,是牛津大学 Yarin Gal 和 Yee Whye Teh 的博士生,曾在谷歌大脑团队的 Geoffrey Hinton 和 Lukasz Kaiser 组内工作。

这家公司的投资阵容颇为豪华:早期投资者包括图灵奖得主 Geoffrey Hinton、GAN 之父 Ian Goodfellow、Uber 首席科学家 Raquel Urtasun、英伟达多伦多研究实验室主任 Sanja Fidler 以及斯坦福大学教授李飞飞等。

GPT-3 等模型的问世让人们看到了大规模预训练语言模型的潜力,也在国内外掀起了一场创业热潮。Cohere 团队的创始成员也都是预训练模型领域的资深研究者。但他们注意到,由于技术门槛过高,大多数人(包括普通开发人员)根本无法使用这项技术,因此他们致力于改变这一现状。

Aidan Gomez 曾表示,为了达成这一使命,他们训练了一个数十亿(未来可能数千亿)参数语言模型。利用该模型的 API,我们可以完成文本补全、从文本中提取有语义意义的向量、测量段落语义相似性等任务。用户只需要在自己的系统中载入三行代码就可以调用该模型的能力。「无论你是前端还是后端的开发人员,无论你是做 web 还是移动,任何人都可以将 NLP 构建到应用程序中。」Aidan Gomez 在采访中说到。

如今,虽然仅创立一年,这家公司已经拿到了 1.7 亿美元的融资。


Lukasz Kaiser:跳槽 OpenAI

2021 年 6 月,Lukasz Kaiser 从谷歌跳槽到了 OpenAI。


在 2013 年加入谷歌之前,Lukasz Kaiser 是巴黎狄德罗大学的终身研究员,从事逻辑和自动机理论研究。他于 2008 年在亚琛工业大学获得博士学位,在波兰弗罗茨瓦夫大学获得硕士学位。

Lukasz Kaiser 的研究领域包括深度学习自然语言处理,在谷歌担任研究科学家期间,他参与了机器翻译、解析及其他算法和生成任务的 SOTA 神经模型设计,是 TensorFlow 系统、Tensor2Tensor 库的共同作者。



他的研究工作还包括使用可满足性求解器和其他符号方法来构建游戏系统和解决程序合成问题,证明关于描述复杂性、博弈论和解决长期未解决问题的自动机的定理。


Illia Polosukhin:华丽变身区块链创业大佬

Illia Polosukhin 现在是 NEAR.AI 的联合创始人及 CTO。


Illia Polosukhin 来自乌克兰,在哈尔科夫国立技术大学获得了应用数学和计算机科学硕士学位。移居加利福尼亚之后,他参与了各种机器学习项目,并加入了谷歌研究院,仅用一年就成为了工程主管。

三年后,他决定和 Alexander Skidanov 共同创办 NEAR.AI:「我们坚信『程序合成』这一从人类规范出发研究自动化编程的领域将改变软件开发和整个世界。」


但随着创业过程的深入,他们意识到,即使专注于简单的问题,任务描述也很复杂。描述中使用的概念和语言种类繁多,模型无法捕捉,一些问题也需要逻辑推理步骤和外部数学知识。他们发现,之前的研究结果在实践中尚不可用(最佳模型的准确率约为 12%),机器学习特别是自然语言理解的转折点,似乎还没有出现。

后来,NEAR.ai 这家公司开始转向区块链。Illia 在一篇有关公司转型的博客中写道:


1、考虑到我们在程序合成方面所做的工作,顾问建议我们把研究方向改成为以太坊生成智能合约。目前,普通工程师很难编制可证明的合同,程序合成可以有效解决这个问题;

2、在与想要开发应用程序的人谈过之后,我们逐渐了解到,他们对于「使用区块链构建应用程序,以提供金钱激励和更好的隐私和安全」非常关注。




自此,公司正式改名为 NEAR Protocol。他们组建了一支优秀的人才队伍,包括 3 名 ICPC 金牌得主、3 名 MemSQL 工程师、4 名前谷歌员工,并正在邀请 Web3 领域的专家加入公司。

目前,NEAR Protocol 已经成为一家区块链分布式协议提供商,基于一种名为 Nightshade 的分片方法和共识机制,致力于开发区块链底层架构与 DApp 开发平台,并为开发人员提供事务、智能合约帐户和 gas 费用回扣等协议级别工具。前段时间,该公司宣布完成 3.5 亿美元的最新一轮融资。
理论谷歌Transformer
相关数据
李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

Ian Goodfellow人物

Ian Goodfellow 是机器学习领域备受关注的年轻学者之一,他在本科与硕士就读于斯坦福大学,师从吴恩达,博士阶段则跟随蒙特利尔大学的著名学者Yoshua Bengio研究机器学习。Goodfellow 最引人注目的成就是在2014年6月提出了生成对抗网络(GAN)。这一技术近年来已成为机器学习界最火热的讨论话题,特别是在最近几个月里,与GAN有关的论文不断涌现。GAN已成为众多学者的研究方向。

区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

博弈论技术

博弈论,又译为对策论,或者赛局理论,应用数学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

以太坊技术

以太坊(英文Ethereum)是一个开源的有智能合约功能的公共区块链平台,通过其专用加密货币以太币(Ether)提供去中心化的虚拟机(“以太虚拟机” Ethereum Virtual Machine)来处理点对点合约。 以太坊的概念首次在2013至2014年间由程序员Vitalik Buterin受比特币启发后提出,大意为“下一代加密货币与去中心化应用平台”,在2014年通过ICO众筹开始得以发展。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

程序合成技术

在计算机科学中,程序合成是自动构建满足给定高级规范的程序的任务。

推荐文章
暂无评论
暂无评论~