Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩编辑

Transformer论文引用破4万,两位作者离开谷歌创业

「在谷歌,我们训练出了越来越大的 Transformer,梦想着有朝一日构建一个通用模型来支持所有 ML 用例。但是,这其中有一个明显的局限:用文本训练出的模型可以写出很棒的散文,但它们无法在数字世界中采取行动。你不能要求 GPT-3 给你订机票,给供应商开支票,或者进行科学实验。」
在一场轰轰烈烈的「炼大模型」运动之后,全世界都在给这些模型寻找应用途径和场景,原谷歌大脑研究人员、Transformer 重要作者 Ashish Vaswani、 Niki Parmar 也不例外。

2017 年,Ashish Vaswani、Niki Parmar 和其他几位研究者一起发表了开启大模型时代的里程碑式论文——《 Attention Is All You Need 》。在这篇论文中,他们提出了著名的 Transformer 架构。2018 年,一个名为 BERT 的模型引爆了 NLP 学界,刷新了 11 项 NLP 任务的 SOTA 记录,其背后功臣正是 Transformer。

图片

图片

Ashish Vaswani、Niki Parmar 等人 2017 年发表的《 Attention Is All You Need 》。注意:∗ 表示这些研究者做出了不同方面但同等重要的贡献(排名随机)。其中,Ashish 和 Illia 一起设计并实现了第一批 Transformer 模型,并重度参与了 Transformer 架构的各方面工作。Niki 在原始代码库和 tensor2tensor 中设计、实现、调优和评估了无数的模型变量。

在之后的几年里,Transformer 成为自然语言处理领域的主流架构,而且成功跨界到了视觉、音频处理等多个领域,标志性的「xxx is all you need」也成为火爆一时的标题模板。

五年过去,Ashish Vaswani、Niki Parmar 决定踏上新的征程。在最近发布的推文中,他们宣布自己参与创办了一家新的创业公司——Adept,致力于让人和计算机以创造性的方式一起工作,从而实现通用智能。「我们相信,人工智能系统应该以用户为中心,我们的愿景是让机器与坐在驾驶员位置上的人一起工作:发现新的解决方案,使决策更加明智,并给我们更多的时间做我们喜欢的工作。」该公司在介绍中写道。

图片

图片

除了 Ashish Vaswani 和 Niki Parmar,该公司还聚集了多位 AI 领域的顶级研究者(基本都在谷歌工作过),包括:

  • 前谷歌大脑研究工程师 Anmol Gulati,他参与了谷歌的大规模语音和语言建模研究;

  • 前谷歌大脑研究科学家 Augustus Odena,他参与构建了谷歌的代码生成模型

  • 前 OpenAI 加州实验室工程副总裁 David Luan,后来也加入过谷歌大脑,他是 GPT-2、PaLM (https://mp.weixin.qq.com/s/-Annt2JkAhgv9YxYpc7pXQ) 的论文作者之一,还参与了 GPT-3 的部分工作;

  • DeepMind、谷歌大脑、百度都工作过的 Erich Elsen,他是机器学习和高性能计算交叉领域的研究人员,在 DeepMind 参与领导大模型的训练工作,致力于提高训练效率;

  • 前谷歌大脑软件工程师 Fred Bertsch,他是数据和协作人工智能系统方面的专家;

  • 前谷歌 ML 产品经理 Kelsey Schroeder,她曾领导谷歌大模型生产基础设施产品;

  • 曾在谷歌大脑实习的 MIT 博士 Maxwell Nye,他的研究重点是使用深度学习和符号技术来自动编写代码。在谷歌实习期间,他曾使用非常大的语言模型(> 1000 亿个参数)来编写和理解 Python 程序。


图片

Adept 创始团队。

那么,这些大牛为什么要离开谷歌这种大厂自己创业呢?他们的新公司要做什么产品呢?

David Luan 在公司的第一则博客中写道:
在谷歌,我们训练出了越来越大的 Transformer,梦想着有朝一日构建一个通用模型来支持所有 ML 用例。但是,这其中有一个明显的局限:用文本训练出的模型可以写出很棒的散文,但它们无法在数字世界中采取行动。你不能要求 GPT-3 给你订机票,给供应商开支票,或者进行科学实验。
真正的通用智能要求模型不仅能读能写,还能以一种对用户有帮助的方式采取行动。这就是我们创立 Adept 的初衷:我们正在训练一个神经网络来使用世界上的每一款工具和 API,该网络建立在人们已经创造的大量现有能力的基础上。‍
实际上,我们正在创建一个通用系统,帮助人们在电脑前完成工作,我们管这个系统叫:每个知识工作者的「通用合作者」。你可以把它想象成你电脑里的一个 overlay,它和你一起工作,使用和你一样的工具。
使用 Adept,你能专注于你真正喜欢的工作,并要求模型承担其他任务。例如,你可以要求模型「生成月度合规报告」,所有这些都使用现有的软件,如 Airtable、Photoshop、ATS、Tableau、Twilio。我们希望这个「合作者」是一个好学生,可训练性非常强,非常有帮助。
这一产品愿景让我们兴奋不已,不仅因为它对每个在电脑前工作的人来说都非常有用,还因为我们相信这是实现通用智能最实用、最「安全」的途径。与生成语言或自行决策的大型模型不同,我们的模型范围更窄——我们是现有软件工具的接口,更容易缓解偏见问题。对我们公司来说至关重要的是,我们的产品如何成为一种工具,来了解人们的偏好,并在每一步中整合人类的反馈。
从这则博客中我们可以看出,Adept 虽然也宣称要实现 AGI,但他们选择的是一条不同的道路,即先不着急用 AI 取代人类,而是致力于用 AI 来增强人类的能力,这听起来似乎更容易实现。

图片

图片

当然,这并不是什么新鲜概念。《深度学习》一书作者、被称为「世界 AI 之父」的特伦斯 · 谢诺夫斯基(Terry Sejnowski)早在 2019 年就说过,「在未来,人类与机器将是合作而非竞争关系」。作为实现 AGI 之前的过渡阶段,「协作智能」的概念越来越受关注。澳大利亚最大的国家级科研机构——CSIRO 首席研究科学家 Cécile Paris 甚至指出,「(协作智能)将成为数字化转型的下一个科学前沿」。目前,国内外都涌现了很多以「用 AI 增强人类能力」为愿景的技术公司,比如循环智能容联云等。在真正的 AGI 实现之前,可能会有越来越多的公司选择这条路线。

David Luan 透露,目前 Adept 已经拿到了 6500 万美元的融资,Uber CEO Dara Khosrowshahi、特斯拉 AI 高级总监 Andrej Karpathy 等人都是他们的天使投资人。

图片

参考链接:https://www.adept.ai/post/introducing-adept
产业Transformer
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~