MIT研究员警告:深度学习已经接近计算极限

我们正在接近深度学习的计算极限。

根据麻省理工学院,MIT-IBM Watson AI实验室,Underwood国际学院和巴西利亚大学的研究人员的说法,他们在最近的一项研究中发现,深度学习的进展“非常依赖”计算能力的增长。但他们指出,持续不断的进步将需要通过改变现有技术或通过尚未发现的新方法来“戏剧性地”更有效地使用深度学习方法。

“我们表明,深度学习不是偶然的计算代价,而是设计的代价。共同的灵活性使它能够出色地建模各种现象,并且性能优于专家模型,这也使其在计算上的成本大大提高。”合著者写道。“尽管如此,我们发现深度学习模型的实际计算负担比(理论上的)下界更快地扩展,这表明可能有实质性的改进。”

深度学习机器学习的子领域,涉及受大脑结构和功能启发的算法。这些算法(称为人工神经网络)由功能(神经元)组成,这些功能按层排列,将信号传输到其他神经元。信号是输入到网络中的输入数据的产物,它们从一层到另一层传播并缓慢地“调谐”网络,实际上是在调整每个连接的突触强度(权重)。网络最终通过从数据集中提取特征并识别交叉样本趋势来学习进行预测。
研究人员分析了Arxiv.org以及其他基准测试来源的1,058篇论文,以了解深度学习性能与计算之间的联系,并特别注意以下领域:图像分类,对象检测,问题解答,命名实体识别机器翻译。他们对计算需求进行了两次单独的分析,反映了可用的两种信息:

在给定的深度学习模型中,每个网络遍历的计算,或单遍遍(即权重调整)所需的浮点运算数。

硬件负担,或用于训练模型的硬件的计算能力,计算方式为处理器数量乘以计算速率和时间。(研究人员承认,尽管这是一种不精确的计算方法,但在他们分析的论文中,它的报告比其他基准要广泛。)

合著者报告说,除从英语到德语的机器翻译(使用的计算能力几乎没有变化)外,所有基准均具有“统计学上显着性”的斜率和“强大的解释能力”。对象检测,命名实体识别机器翻译尤其显示出硬件负担的大幅增加,而结果的改善却相对较小,在流行的开源ImageNet基准测试中,计算能力可以解释图像分类准确度的43%差异。

研究人员估计,三年的算法改进相当于计算能力提高了10倍。他们写道:“总体而言,我们的结果表明,在深度学习的许多领域中,训练模型的进步取决于所使用的计算能力的大幅度提高。”, “另一种可能性是,要改善算法本身可能需要互补地提高计算能力。”

在研究过程中,研究人员还对预测进行了推断,以了解达到各种理论基准所需的计算能力以及相关的经济和环境成本。即使是最乐观的计算,要降低ImageNet上的图像分类错误率,也需要进行10的 五次方以上的计算。
一份Synced报告也估计,华盛顿大学的Grover假新闻检测模型在大约两周时间内的训练费用为25,000美元。据报道,OpenAI花费了高达1200万美元来训练其GPT-3 语言模型,而Google估计花费了6,912美元来训练 BERT,这是一种双向转换器模型,可为11种自然语言处理任务重新定义最先进的技术。

在去年6月的马萨诸塞州大学阿默斯特分校的另一份报告中,得出的结论是,训练和搜索某种模型所需的电量大约排放了626,000磅的二氧化碳。这相当于美国普通汽车寿命排放的近五倍。

研究人员写道:“我们预计目标所隐含的计算需求……硬件,环境和金钱成本将无法承受。” “以一种经济的方式实现这一目标将需要更高效的硬件,更高效的算法或其他改进措施,以使净影响如此之大。”

研究人员指出,在算法级别进行深度学习改进已有历史先例。他们指出了硬件加速器的出现,例如Google的张量处理单元,现场可编程门阵列(FPGA)和专用集成电路(ASIC),并试图通过网络压缩和加速技术来降低计算复杂性。他们还引用了神经体系结构搜索元学习,它们使用优化来查找在一类问题上保持良好性能的体系结构,以此作为计算上有效的改进方法的途径。

确实,一项OpenAI 研究表明,自2012年以来,每16个月将AI模型训练到ImageNet图像分类中相同性能所需的计算量就减少了2倍。Google的Transformer架构超越了以前的seq2seq(也是由Google开发的模型),在seq2seq推出三年后,计算量减少了61倍。DeepMindAlphaZero这个系统从零开始教自己如何掌握国际象棋,将棋围棋游戏,而一年后,该系统所需的计算量就减少了八倍,以匹配该系统的前身AlphaGoZero的改进版本。

“用于深度学习模型的计算能力的爆炸式增长已经结束了“人工智能冬天”,并为各种任务的计算机性能树立了新的基准。但是,深度学习对计算能力的巨大需求限制了它可以以目前的形式提高性能的程度,特别是在硬件性能的提高放缓的时代。” “这些计算限制的可能影响迫使……机器学习转向比深度学习更高效的技术。”
半导体行业观察
半导体行业观察

最有深度的半导体新媒体,实时、专业、原创、深度,30万半导体精英关注!专注观察全球半导体最新资讯、技术前沿、发展趋势。

理论深度学习MIT
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature。2018 年 12 月,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中,AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

将棋技术

将棋,日语平假名:しょうぎ 片假名:ショウギ 罗马音:syo u gi也叫本将棋,又称日本象棋,一种流行于日本的棋盘游戏。

结构搜索技术

深度学习提供了这样一种承诺:它可以绕过手动特征工程的流程,通过端对端的方式联合学习中间表征与统计模型。 然而,神经网络架构本身通常由专家以艰苦的、一事一议的方式临时设计出来。 神经网络架构搜索(NAS)被誉为一条减轻痛苦之路,它可以自动识别哪些网络优于手工设计的网络。

专用集成电路技术

专用集成电路是为特定用户或特定电子系统制作的集成电路。数字集成电路的通用性和大批量生产,使电子产品成本大幅度下降,推进了计算机通信和电子产品的普及,但同时也产生了通用与专用的矛盾,以及系统设计与电路制作脱节的问题。同时,集成电路规模越大,组建系统时就越难以针对特殊要求加以改变。为解决这些问题,就出现了以用户参加设计为特征的专用集成电路,它能实现整机系统的优化设计,性能优越,保密性强。

现场可编程门阵列技术

FPGA(Field Programmable Gate Array)是在PAL、GAL等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。

推荐文章
暂无评论
暂无评论~