李泽南作者

深度森林打破神经网络垄断,AutoML让AI本身自动化:WAIC国际前沿算法峰会落幕

「今天的智能化应用越来越离不开 GPU、TensorFlow 这样的硬件和框架了。但如果我们发现神经网络之外更好的模型,深度神经网络的垄断自然就会被打破。」在由第四范式承办的国际前沿算法峰会上,南京大学教授周志华这样说道。

备受瞩目的 WAIC 2019 世界人工智能大会进入第二天,本次大会上不仅有马云和马斯克有关人类未来的对话,也有机器学习之父 Tom Mitchell、港科大教授杨强、南京大学教授周志华、北大教授王立威等人为我们带来的,有关 AI 算法前沿技术的硬核讨论。

在昨天下午第四范式承办的国际前沿算法峰会上,多位 AI 领域顶尖科学家就无监督学习、AutoML、联邦学习深度森林机器学习的前沿方向分享了业内的最新观点,其中一些颇具前瞻性的思想让在座的观众,以及大批站着听完演讲的观众们都觉得不虚此行。

今天人工智能的发展可以仰赖芯片强大的算力,大数据对于 AI 模型的支持,而算法作为机器的「灵魂」,则定义了 AI 的未来。

面向无监督学习

在这次活动中,卡耐基梅隆大学(CMU)计算机学院院长,《机器学习》作者 Tom Mitchell 也介绍了自己有关无监督学习的研究。

Mitchell 教授目前在 CMU 的研究组正在探索一个被称为 NELL(Nerver Ending Language Learner)的项目,旨在让计算机 24 小时不停搜集网络上的公开内容,并试图标记出重要的信息,以此希望算法能够不断自我提升理解能力。

当我们观察这一项目时,可以发现在 NELL 当中有十个已标注的类型,而通过机器自动学习的未标注数据则超过 2500 万个。

「事实上计算机是可以做到无监督学习的,它们每天都在提升水平,」Mitchell 表示。「我们从传统的单一函数学习框架扩展到了多函数的方法。今天,我们已经拥有 4000 余种分类方法,实现了前所未有的准确性。」

AutoML 和联邦迁移学习

AI 发展到今天面临很多挑战,尤其是数据挑战。数据孤岛、小数据、用户隐私的保护等导致数据的割裂,让 AI 技术很难发挥出价值。为了解决这一问题,国际人工智能学会理事长,香港科技大学教授,香港人工智能及机器人学会创会理事长杨强教授提出了「联邦学习」的研究方向。

所谓联邦学习,是多个数据方之间组成一个联盟,共同参与到全局建模的建设中,各方之间在保护数据隐私和模型参数基础上,仅共享模型加密后的参数,让共享模型达到更优的效果。而在昨天的活动中,杨强又介绍了 AutoML 和联邦迁移学习

人工智能的这一轮浪潮已经开始几年了,学界还不断在有新的算法出现,」杨强表示。「过去,机器学习算法中的参数需要人工调整。而今天的 AutoML、模型搜索等技术已经可以部分自动化算法的设计和算法的配置了。」

今天的人工智能仍然大量依赖于人类专家的工作,但就像传统工业最后会向自动化发展一样,人工智能的新方向 AutoML 希望通过自动化的机器学习将调参、特征工程等工作由机器来完成。

「从数学的角度看来,AutoML 是让目标函数学习机器学习参数,从配置里学习最佳参数,」杨强介绍道。「在定义中参数的量是巨大的,维度可能高达上亿,在其中要寻找最佳的点由人来做非常困难,本身就应该由机器来完成。在找出不同的函数之后,不同的函数也要做对比和评估,评估的过程也可以自动化。」

如何自动化地进行模型优化?目前看来,很多地方都可以进行 AutoML,首先是配置空间,其次是数据的预处理,另外还有特征的抽取和处理,最后是模型的训练。

迁移学习是在多个不同领域之间训练的,其中的迁移过程往往是由人类专家来设计的。在学术上有很多的研究,这种迁移是不是也可以自动化?我们可以把它定义成路径优化的问题。在这一方面,第四范式最近还提出了可以保护隐私的自动迁移学习方法 AutoPTL。

在自动机器学习方向之外,另一个前沿领域是减少对于数据的依赖。目前深度网络的知识迁移,其做法通常是通过预训练——我们可以识别出哪一层模型可以原封不动地迁移到需要的模型中,另一部分则需要通过新数据的训练让它适应新任务。

这种迁移学习方法被应用在了不同场景,如银行大额贷款等场景中。而在面临数据割裂的情况下,我们还需要让几种数据建立一个共享的模型,但在建立的过程中不交换数据,只是交换加密保护的模型参数。「这种做法的效果就像是融合了多种数据的训练,这就是联邦学习。同时我们也要考虑到,数据的交叉非常小,这一点上我们可以使用迁移学习,结合起来我们就叫联邦迁移学习。」

联邦迁移学习不仅提高了效率,也可以保护数据,让各个企业的自有数据不出本地,模型效果与直接合并训练一样。对于银行、电商、零售机构非常友好,让他们的数据可以聚合,通过隐私保护的方法来实现更高程度的自动化。

杨强教授的愿景中,联邦迁移学习最终的目的是形成一个生态,包括互联网的数据,以及场景中的数据,不同行业和不同的用户行为数据进行有机的结合。

打破神经网络、GPU 和 TensorFlow 的垄断

「现在我们每天都在谈论深度学习,这种方法取得了巨大成功。但它到底是什么?我们完全可以从工程上去解释它。」ACM、AAAI、IEEE Fellow, 南京大学计算机系主任、人工智能学院院长,欧洲科学院外籍院士周志华在主题为「新型深度学习的探索」的演讲中说道,他的分享获得了最多的掌声。

我们今天谈论的深度神经网络有很多层,我们经常看到几千层的模型——这是一种庞大的计算系统。我们要训练模型,就是在调整训练参数

「人们今天总结认为 AI 的快速发展是由大数据,强大的网络和算力,以及算法的改进引起的。有一个错误的观点认为有强大的算力,把老算法放在新机器上就可以成功了,」周志华说道。「事实上,训练深层神经网络的算力在 20 世纪 90 年代就已经具备。但我们使用反向传播方法训练神经网络需要做梯度优化,否则就会出现梯度消失问题。直到 2006 年,Geoffrey Hinton 才通过逐层训练的方法解决了这个问题。」

今天的深度神经网络虽然很成功,但还是有很多问题需要研究。我们为什么要做的深?直到今天学术界都没有一个公认的解释。

南京大学的学者们人为,从模型复杂度上看,我们建立的模型需要有泛化能力,它和模型的容量有联系,因而我们需要提高复杂度。因此,把神经网络变得更宽、更深就可以让它更加有效。变宽就是增加了函数的个数,变深不仅增加了个数,还增加了嵌套迭代的数量。今天,我们利用大数据训练将过拟合的风险大大降低,而强大的算力和新的算法、训练技巧也在别的方面解决了很多挑战——我们可以使用高复杂度的模型了,而深度神经网络就是一个高复杂度模型。

「但这仍然没有解释为什么深的就是好的,浅的就是不好的。为什么有了这三个条件浅的不好,深的就是好的呢?」周志华说道。「现在的理论不能回答这个问题。再深入下去,深度神经网络最重要的作用是什么?我们认为最重要的是表示学习。今天有了深度学习之后,特征完全是机器自己学出来的,我们认为表示学习很重要。」

周志华等人认为,深度神经网络的关键是逐层加工处理、内置特征变化、高度的模型复杂度。做到这三点,我们就能做到一个好的深度神经网络

而更重要的结论是:「这三点猜测没有说非要神经网络不可,我们可以研究神经网络之外的模型。」

周志华等人提出的深度森林就是这样的模型。深度神经网络有很多的缺陷,从应用的角度来看,也有很多理由来研究神经网络之外的模型。

机器学习早就知道,没有任何一个模型可以包打天下。」周志华表示。

深度森林自提出以后就获得了 Hinton 等众多著名学者的关注,并已经在应用上取得了一定成功。「我们最近和一家国内互联网金融巨头合作,研究了算法检测非法套现的方法,」周志华介绍道。「在其平台上,训练数据达到了 1 亿 3000 万次真实交易,测试数据则是 5200 万次真实交易。为此,这家公司还实现了大规模分布式版本。在这个任务上,深度森林获得了最好的结果,这验证了前面的猜想,这个任务中有大量符号化的内容。在这种混合建模、非数值建模上,森林模型确实找到了它的用途。」

我们现在还不知道森林模型能走多远,在未来出现更为合适的硬件之后,深度森林才可以变得更深。但周志华等人的研究验证了设计神经网络之外的深度模型是完全有可能的。

「今天,深度森林在实验中做到 21 层就做不下去了,其中很大一部分原因在于没有找到适合加速的硬件,」周志华表示。「我们发现英特尔的 KNL 芯片,它虽然频率不高,但十分适合深度森林的计算。现代的智能应用需要框架和特殊硬件,从另一个角度来看,打破神经网络、GPU、TensorFlow 等硬件和技术的垄断也可以降低智能化时代『缺芯少魂』的风险。」

数学方法重塑 Transformer

深度学习今天绝大部分成功似乎都是应用上的成功,在理论上还存在着大量的空白。北京大学信息学院教授王立威向我们介绍了使用全新方法探索算法和模型结构的思路。

今天常见的深度学习优化算法 Adam、AdaGrad 等都属于一阶优化方法。我们能不能通过理论研究找到更好更快的算法呢?王立威介绍了北京大学最近的研究方向。

深度神经网络的训练本质上是一个非凸优化问题。一阶优化方法很容易找到局部最优,而不是全局最优点。然而,今天的训练方法经常可以避开局部最优,这是一个非常反直觉的情况。「我们在数学上,通过两条假设(每一层神经元的数量足够大,随机初始化参数服从高斯分布)可以从理论上严格地证明,一阶优化就可以很高几率地找到全局最优点。」

通过数学的方式,我们就可以得出全新的结论:过去我们一直认为深度学习是非凸优化问题,在两条假设下,实际上网络的输出对于网络的参数是非常接近线性的。这就大大简化了神经网络训练的方向。

因此,我们可以找到更好的,训练神经网络的方法——在网络足够宽的情况下,我们可以引入很多二阶优化方法来完成工作。王立威认为,有一类算法:高斯牛顿法对于这种情形非常合适。这种方法比现在的方法效率更高,准确性也更高,是未来值得探索的方向。

「既不同于人类手动设计,也不同于 AutoML 和自动搜索,我们把网络设计引申为数学问题,」王立威说道。「我们可以把网络的结构和微分方程的数值解紧密地联系起来。这种观点最早是由北京大学的学者们提出的。在去年的 AI 顶会 NeurIPS 上,最佳论文也颁发给了神经网络和微分方程联系的研究。」

王立威昨天分享的新成果是从微分方程的角度来研究 Transformer,这一算法在今天的自然语言处理领域中已是性能最好的结构。

从微分方程数值解的角度来看待这种结构,我们可以找到唯一一个与之对应的方法。对于 ResNet 我们找到了欧拉法。对于 Transformer,研究者们找到了对流扩散方程。

它和 Transformer 着有非常紧密的关系——Transformer 对应了对流扩散方程中一种非常基本的方法 Lie-Trotter splitting。「然而,在微分方程数值解中没有人会去使用 Lie-Trotter splitting 方法,因为它是次优的,」王立威表示。「在数学上我们有更好的方法:Strang-Marchuk splitting。由此观之,反推回去是否就可以找到更好的 Transformer 结构?我们用新的微分方程数值解,的确找到了更好的结构。」

通过数学方法,北京大学的研究者们对 Transformer 进行了简单的结构调整,并获得了非常显著的性能提升。

新算法的落地

在演讲过后,OpenML 创始人 Joaquin Vanschoren、Data lab 负责人 Xia "Ben" Hu、墨西哥 INAOE 教授 Hugo Jair Escalante、早稻田大学教授 Tetsuya Ogata 等人共同就 AI 算法的未来方向展开了讨论。

而在以新算法应用落地为主题的 Panel 环节中,地平线机器人创始人余凯、第四范式创始人戴文渊、思必驰联合创始人俞凯、新思科技全球资深副总裁 Chekib Akrout 和科技部原副司长蔡文沁分享了各自的观点。

对于业界来说,现在最重要的事情或许不是寻求算法的突破,而是为算法寻求价值。「卷积神经网络实际上在 1987 年就已经被发明出来了,反向传播算法则是在 1986 年出现的,」余凯说道。「算法的理论研究在 30 多年来并没有翻天覆地的变化,但另一方面,摩尔定律是不会减缓的。」

「在 2015 年,每 1000 美元能买到的算力和一只老鼠大脑的算力是一样的。我们知道,老鼠和人类大脑算力的差别约为 1000 倍。根据摩尔定律,到 2025 年的时候,1000 美元买到的算力就会相当于人类的大脑水平。这样,自动驾驶等问题或许就可以得到解决了。在未来十年里,很多技术的发展都会超出我们的想象。」余凯表示。

「理论上,每一件事情都有可能被人工智能化,」戴文渊表示。「现在也有很多已被 AI 解决的问题,比如能源企业设备运维、金融行业的反欺诈。今天请科学家做三五个月研发的成本可能是几百万,但其带来的收益会是成本的数倍。在人工智能开发门槛降低之后,我们会看到更多的工作将会被 AI 辅助。」

戴文渊认为,未来的人工智能发展方向在于通过 AutoML 等技术降低应用的门槛,从而让更多人能够利用 AI 提高生产效率:「我对于未来最大的期待,是希望每年让 AI 开发者的人数提升一个数量级。AI 的爆发需要大量的开发者,就像移动互联网一样。第四范式一直致力于让普通人能够驾驭 AI。」

理论周志华第四范式世界人工智能大会深度森林
2
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
第四范式机构

第四范式成立于2015年初,是国际领先的人工智能技术与服务提供商,已服务20多个行业完成上千个AI落地案例。目前国内重要的国有银行和全国性股份制银行,超过一半都是第四范式的客户,此外,公司在互联网、医疗、政府、能源、零售、媒体等行业均有涉猎,诸多案例取得百分之一百以上的效果提升。

https://www.4paradigm.com/
地平线机构

地平线作为嵌入式人工智能全球领导者,致力于提供高性能、低功耗、低成本、完整开放的嵌入式人工智能解决方案。面向智能驾驶、智能城市和智能商业等应用场景,为多种终端设备装上人工智能“大脑”,让它们具有从感知、交互、理解到决策的智能,让人们的生活更安全、更便捷、更美好。

思必驰机构

思必驰是国内领先的人工智能语音交互技术平台公司,为企业和开发者提供自然语言交互解决方案,包括DUI开放平台、企业级智能服务、人机对话操作系统、人工智能芯片模组等,并在赋能智能终端后,丰富后端服务资源,满足用户多样化需求。

http://www.aispeech.com/
俞凯人物

思必驰联合创始人兼首席科学家,剑桥大学语音博士,上海交大教授,IEEE 高级会员,国家「青年千人计划」、NSFC 优秀青年科学基金获得者,上海市「东方学者」特聘教授,中国语音产业联盟技术工作组副组长。清华大学自动化系本科、硕士,剑桥大学工程系博士。 2012 年在上海交通大学创建智能语音技术实验室,将人机口语对话系统的全面技术引入回国。在人机口语对话交互的主要核心技术领域进行了广泛研究,在国际一流期刊和会议上发表论文 80 余篇,获得 ISCA 颁发的 2008-2012 Computer Speech Language 最优论文奖等多个国际期刊和会议优秀论文奖。

周志华人物

周志华分别于1996年6月、1998年6月和2000年12月于 南京大学计算机科学与技术系获学士、硕士和博士学位。主要从事人工智能、机器学习、数据挖掘 等领域的研究工作。主持多项科研课题,出版《机器学习》(2016)与《Ensemble Methods: Foundations and Algorithms》(2012),在一流国际期刊和顶级国际会议发表论文百余篇,被引用三万余次。

杨强人物

杨强现任香港科技大学新明工程学讲席教授、计算机科学和工程学系主任,大数据研究所所长 。他是人工智能研究的国际专家和领军人物,在学术界和工业界做出了杰出的服务和贡献,尤其近些年为中国人工智能(AI)和数据挖掘(KDD)的发展起了重要引导和推动作用。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

深度森林技术

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

反向传播算法技术

反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

梯度消失问题技术

梯度消失指的是随着网络深度增加,参数的梯度范数指数式减小的现象。梯度很小,意味着参数的变化很缓慢,从而使得学习过程停滞,直到梯度变得足够大,而这通常需要指数量级的时间。这种思想至少可以追溯到 Bengio 等人 1994 年的论文:「Learning long-term dependencies with gradient descent is difficult」,目前似乎仍然是人们对深度神经网络的训练困难的偏好解释。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

香港科技大学机构

香港科技大学(The Hong Kong University of Science and Technology),简称港科大(HKUST),为东亚研究型大学协会、环太平洋大学联盟、亚洲大学联盟、中国大学校长联谊会、京港大学联盟、粤港澳高校联盟重要成员,并获AACSB和EQUIS双重认证,是一所亚洲顶尖、国际知名的研究型大学。该校以科技和商业管理为主、人文及社会科学并重,尤以商科和工科见长。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

模型优化技术

像卷积神经网络(CNN)这样的深度学习模型具有大量的参数;实际上,我们可以调用这些超参数,因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值,但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构,他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

二阶优化方法技术

最优化方法,是指解决最优化问题的方法。所谓最优化问题,指在某些约束条件下,决定某些可选择的变量应该取何值,使所选定的目标函数达到最优的问题。即运用最新科技手段和处理方法,使系统达到总体最优,从而为系统提出设计、施工、管理、运行的最优方案。

推荐文章
暂无评论
暂无评论~