张峥作者

上海纽约大学张峥教授:2017年影响力论文推荐

上海举办「世界 AI 大会」,找到我作为评委之一,推荐和大会关联的、2017 以来有影响的工作。我把推荐文章和一些补充材料和想法整理一下,在这里抛砖引玉。


0:
  • Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

  • https://arxiv.org/abs/1712.01815 

  • David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot,Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy Lillicrap, Karen Simonyan, Demis Hassabis 

  • Google Deepmind

  • Date: 12/5/2017, NIPS 2017

  • Citation: 99

这篇文章特意选择在 NIPS2017 会议期间发表,但与会者并没有特别大的反应。相反,在研讨会上这篇文章引起了关于通用智能的一场针锋相对的讨论。

通盘考虑对学界和工业界的影响力,把 AlphaZero 置顶应该没有疑问。这是一个软硬相辅相成、算法和工程结合、顶级学术加顶级广告的完美案例。算法上最吸引人的不是进,而是退,不是做加法,而是做减法,退回到一个更加简洁明快的框架之中。谷歌 TPU 系列硬件也借此脱颖而出,到了大街小巷连门房大爷都要问个明白的程度。

这样的工作,影响力已经远远超出了可以用学术界论文引用指数来衡量的范畴。在大会中我碰到文章的一作 David Silver,问他怎么看中国的几个围棋程序,他笑笑说估计它们「参考」了这个工作,因为文章发表之后不久水平大涨。

这个项目即便提名,对方婉拒的可能不小。所以我正式的提名是以下五个工作。

1:

  • Poincaré Embeddings for Learning Hierarchical Representations. 

  •  http://papers.nips.cc/paper/7213-poincare-embeddings-for-learning-hierarc 

  • Maximillian Nickel and Douwe Kiela 

  • Facebook AI Research (FAIR)

  • Date: arXiv 5/22/2017; NIPS 2017

  • Citation: 47

这是相对小众的理论文章。如果说机器学习是幢楼,那筑楼的砖块是「嵌入式表示」(Embedding Representation)。现实世界中的数据,比如图像、文字、概念,存在于维度极高也极端稀疏的高维空间中,「嵌入」的意义在于把这些数据映射成一个相对稠密的低维空间中的向量,从而把源空间中巨大的空洞挤压掉。深度学习的所有的计算都围绕这相对稠密的对象空间中的向量展开,推演向量之间的关系。

一般情况下我们假设对象空间是个欧式空间。而真实数据、概念之间的关系很复杂,桌子是家具的一类,大猩猩是人的远亲,分别对应分支和层次的关系,等等。这些关系量化到对象空间,其距离和位置是如何的呢?一种可能是把维度遍历成序列,相当于赋予维度以层次的语义,排前维度代表更高的层次。即便如此,那么划分成多少层次,每层用多少维呢?这后面最根本的问题在于嵌入空间是否具有可解释性,这个问题曾经困扰我很久。在追逐实用的浪潮中,如此重要的问题少有工作涉及。

这个工作创造性地把对象空间变成一个球体:离球中心越远的点层次越低,在一个同心壳上的可以粗略地认为层次相当,离中心远的同心壳上可分布的点也越多。其意义相当于把欧式空间拓展到非欧空间,自然表达了层次化,因此是一个极有潜力的好概念,并进一步激发想象力:是不是尺度变化不大的情况下可以认为向量分布在一个近欧式空间,而尺度大了以后是非欧空间?更重要的启发在于,切换视角、做范式转换比死啃现有的框架要有意义地多;能更一般化地扩展已有框架都是极好的工作。

2:

  • TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

  • https://arxiv.org/abs/1802.04799 

  • Tianqi Chen, Thierry Moreau, Ziheng Jiang, Lianmin Zheng, Eddie Yan, Meghan Cowan, Haichen Shen, Leyuan Wang, Yuwei Hu, Luis Ceze, Carlos Guestrin, Arvind Krishnamurthy

  • University of Washington

  • Date: 02/2018, SysML

  • Project site: https://tvm.ai/ 

  • Citation: 4

和前两篇相比,这一篇来自华盛顿大学的工作几乎没有多少引用。主要原因是特别新,虽然项目开源已经有一段时间。这篇文章的短文在 2018 年在第一届系统和机器学习的跨界研讨会 SysML 发表,长文最近刚刚被系统研究的顶会 OSDI 2018 录用。

人工智能的打造离不开强大的硬件支撑,TVM 的意义在于建立了一个把算法高效地实现到各类硬件的平台,打破了现阶段主要硬件厂商对底层的垄断。如果说工业界的研究更偏重落地、实用、开发商业价值,学术界的重要使命之一是打破壁垒,把技术民主化和扁平化。

这项工作在学术上打开了另一扇门,使得人工智能算法可以用来优化自身在底层硬件的实现。系统工程和人工智能结合有几个有意义的路径,这个工作将是这方面的先驱,意义重大。此研究团队在这方面的工作(如下)正在 NIPS2018 审稿阶段,我认为非常出色。

  • Learning to Optimize Tensor Programs

  • https://arxiv.org/abs/1805.08166 

  • Tianqi Chen, Lianmin Zheng, Eddie Yan, Ziheng Jiang, Thierry Moreau, Luis Ceze, Carlos Guestrin, Arvind Krishnamurthy

  • Date: 5/21/2018

相比而言,系统研究是个苦活,一个好工作经常需要一个很强的团队合作至少九个月才能成型。而系统和 AI 两方面都过硬十分难得。这篇文章的一作陈天奇同学和卡内基大学的李沐、纽约大学的王敏捷是开源平台 MXNet 的三大学生领袖,作风踏实、实力雄厚而朴实低调,是难能可贵的青年才俊。

3:

  • Attention is All you Need. 

  • http://papers.nips.cc/paper/7181-attention-is-all-you-need 

  • Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. 

  • Google Brain and Google Research

  • Date: arXiv 6/12/2017; NIPS 2017

  • Citation: 432

把语言看成一个序列,利用带门控制的循环网络(比如 LSTM 或 GRU)来处理是常用手段。但带来的问题也是显而易见的:序列上的点如果要影响很多步之后的另一个点,需要「穿过」两者之间的每一道门才能抵达。这层层关卡显然是累赘,而且距离越远带来的问题越大。

这个工作在翻译任务中抛弃循环网络的框架,力图在节点间建立一个动态的关联网络,在思路上是非常漂亮的一个突破,实际效果也非常好。

我个人倾向于把这个工作归入动态图和深度网络有机结合的一个大潮流之中。从这个角度来看,这个工作的出现是必然的。关于这个大方向,我在后面另作展开。

4:

  • Densely Connected Convolutional Networks

  • https://arxiv.org/abs/1608.06993 

  • Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger

  • Cornell University

  • arXiv: 8/25/2016; CVPR 2017

  • Citation: 1284

这篇高引用文章面世于 2016 年,虽然正式会议发表是在 2017 年。所以,理论上并不符合「2017 年之后」的标准,但也值得提一下。

深度学习中的神经网络一味追求「深」带来至少两个问题:细节的丢失和错误信号的梯度难以回传。ResNet 引入 skip-connection,把浅层的特征可以逐层「快递」,使得图像识别网络的性能上了一个台阶,但随后发展进入停滞。这个工作并没有在本质上改变这个局面,其突破是把浅层特征上报的范围扩大,这也是「密链接」一词的由来。

在实用中,这个网络在控制参数总量的同时效果显著。

5:

  • Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

  • https://arxiv.org/abs/1705.07115 

  • Alex Kendall, Yarin Gal, Roberto Cipolla 

  • University of Cambridge

  • Date: arXiv 5/19/2017; CVPR 2018

  • Citation: 38

我们经常要求一个模型同时胜任多个任务,比如在定位物体的同时预测类别。多任务学习除了实用性,另一个意义是对模型进行约束。但带来一个令人头疼的问题:如何设置每个任务在训练中的比重。这因为任务的难度不一样,标注复杂度和标注中的噪音也不一样。现阶段依靠暴力搜索超参数的方法除了浪费计算资源,更大的问题是对问题缺乏严格的数学表述。

这个工作把单任务预测的不确定性和其在多任务训练中的比重结合起来,给出了一个漂亮的数学形式,实验结果也很不错。虽然是在解决视觉问题中提出,但具有一般性,有被推广的潜力。

其他推荐

从 2014 年开始,对抗网络(GAN)一直大热,原文至今已经被引用超过 4400 次。对其他研究领域来说(比如我之前活动的系统研究领域),这是个天文数字。在图像和自然语言中,有两篇文章没有直接用 GAN,而是取其精髓,用对抗的损失函数对中间层的表达做约束,用迭代翻译的方法建立同一模态但不同表达的数据集(比如英文和德文、马和斑马)之间的联系,从而大大降低昂贵的标注成本。工作非常漂亮。

第一个是 CycleGAN:

  • Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

  • https://arxiv.org/abs/1703.10593 

  • Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros

  • University of California, Berkeley

  • Date: arXiv 3/30/2017; ICCV 2017

  • Citation: 700

第二个自然语言其实有两篇同时在 ICLR 2018 年发表的文章

  • Unsupervised Machine Translation Using Monolingual Corpora Only. 

  • https://arxiv.org/abs/1711.00043

  • Guillaume Lample, Alexis Conneau, Ludovic Denoyer, Marc'Aurelio Ranzato. 

  • Facebook AI Research; University of Paris 06

  • Date: arXiv 10/31/2017; ICLR 2018. 

  • Citation: 26

 

  • Unsupervised Neural Machine Translation

  • https://arxiv.org/abs/1710.11041

  • Mikel Artetxe, Gorka Labaka, Eneko Agirre, Kyunghyun Cho. 

  • University of the Basque Country (UPV/EHU); New York University

  • Date: 10/30/2017; ICLR 2018. 

  • Citation: 26

2017 年还有一篇来自「教父」(之一)Hinton 的明星文章,所谓「胶囊网络」,其在 NIPS 的报告栏前挤满了人。「胶囊」的诞生有点早,在深度学习大热之前的 2011 年,我也很早读到,觉得有趣,也因此坚定了这个信念:除了层次化的卷积网络之外不借鉴大脑的工作机理都是短视和错误的。2011 年的文章提出了模型的粗框架,但更多是提出而不是解决了问题。显然,Hinton 一直没有放弃这个方向。这种坚持之可贵,值得国内的同行认真反思。

  • Dynamic Routing Between Capsules

  • https://arxiv.org/abs/1710.09829 

  • Sara Sabour Nicholas Frosst Geoffrey E. Hinton

  • Google Brain

  • Date: arXiv 10/26/2017; NIPS 2017

  • Citation: 190

我个人的看法,「胶囊」在科学探索比实际应用更重要一些,是把脑科学和 AI 从神经元级别上升到电路层次来衔接的重要一步。在技术上有两个地方值得学习,一个是球形的嵌入式表达,和之前的 Poincaré Embeddings(推荐的第一篇)有异曲同工之处,第二个就是迭代的图计算,正是下面要提到的。

2017 到 2018 年一个暗流涌动的区域是把图理论和深度学习结合起来。或者说,大家开始意识到隐性挖掘数据中内在结构的局限性。在很多问题中,数据本身是由功能块决定的,功能块之间的联系可以看做一个图上节点之间的链接。这些关系在有些场景中是显性的,比如社交网络、分子结构。如果不是显性也有机会学出来的,尤其当节点数并不是特别大的时候,比如 Attention is all you need 这篇文章就是利用了这一点。

以下这篇工作是谷歌 Deepmind 的总结性文章,在网上关注度不小。但我并不推荐,因为其中无太多新意。关于图和深度网络结合,我看到最早的文章在 2007 年。

  • Relational inductive biases, deep learning, and graph networks

  • https://arxiv.org/abs/1806.01261 

  • Peter W. Battaglia, Jessica B. Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, Caglar Gulcehre, Francis Song,Andrew Ballard, Justin Gilmer, George Dahl, Ashish Vaswani, Kelsey Allen, Charles Nash, Victoria Langston, Chris Dyer, Nicolas Heess, Daan Wierstra, Pushmeet Kohli, Matt Botvinick, Oriol Vinyals, Yujia Li, Razvan Pascanu 

  • Google Deepmind

  • Date: arXiv 6/4/2018

  • Citation 3

在谷歌的总结文章中,我认为缺少了对动态图的处理;之前的 attention is all you need 可以看做动态图在自然语言处理中的一个例子。下面这个工作专门做一般性的动态图生成,实验做得很仔细,是这方面开先河的一个工作。但 2017 年以来有不少文章,很难推荐一篇。因为这篇和谷歌的总结性文章互补,在这里提一下。

  • Learning Deep Generative Models of Graphs

  • https://arxiv.org/abs/1803.03324 

  • Yujia Li, Oriol Vinyals, Chris Dyer, Razvan Pascanu, Peter Battaglia 

  • Google Deepmind

  • Date: 3/8/2018

  • Citation 9

和上面这个工作相关的来自谷歌的另一篇文章。这篇文章之所以影响不小,是因为拓展了另一个新领域,并顺手把图计算的接口整理了一下。值得参考。

  • Neural Message Passing for Quantum Chemistry

  • https://arxiv.org/abs/1704.01212 

  • Justin Gilmer, Samuel S. Schoenholz, Patrick F. Riley, Oriol Vinyals, George E. Dahl 

  • Google Deepmind

  • Date: 4/4/2017, NIPS 2017 workshop of Machine Learning for Molecules and Materials

  • Citation: 119

后记

总的来说,以深度学习为代表的人工智能在 2017 年以来依然保持蓬勃发展的势头。因为 各个子领域采纳的基本框架类似,文章都相通可以互鉴,一个严重的后果就是论文成灾,找到含金量高的成果变成科研的一个瓶颈。

而总的来说,含金量在论文大量涌现的背景下按比例快速下降。大家都在吃上一代核心算法的红利。如果新一代核心算法迟迟不能出现,这将是一个很糟糕的未来。我尤其为刚刚进入或将要进入研究生的同学们感到担忧:花大力气打磨出一些微小改进的工作是很无趣的。

但我还是保持谨慎的乐观。其中一个原因是跨界人才的进入,和因此而来的新的应用领域的打开。为大赛推荐的这几篇文章的作者,就有来自物理、材料、化学的高端人才。他们带来不同的问题,不同的理论框架,不同的视野,不同的技术和框架。况且,以上推荐的这些文章启发性还是很大。各方都在憋大招,可以说是暗流涌动不可预测。

要完成自我革命,一个重要的前提是对已有框架要保持高度自觉的警惕和怀疑。我认为某些手段的滥用遮蔽了更正确的道路,卷积网络、循环网络、注意力机制等等,有可能成为前进的绊脚石。不理解环境的暴力强化学习(model-free reinforcement learning)、无层次无结构的执行策略(policy)等等,都应该看成一个阶段性的成果,而不是全部。灵活挖掘数据背后的结构,在有标签的情况下和图计算结合,在无标签的情况下使用信息瓶颈来「挤」出结构来,是我个人看好的方向。

更可能的是,真正可怕也有趣的方向,正在我看不到的某个实验室的角落发酵。

学界另一个不健康的趋势是暴力选参。深度学习最后总要落实到一个优化问题上来。也许这个问题就是需要大容量的模型,就是需要做大批的参数筛选,但盲目预设这样的前提,并为这样的结果叫好,无疑是资源贫乏的学校等研究单位的自我降维。如果不说是自杀性的思路,至少是举械投降的姿态。

最后说一下大家都关注的热点,所谓中国 AI 研究已经世界老二,因为我们论文数已经第二。能发论文,说明了方法的掌握,不代表有影响力。而任何一种竞赛,领先的都有带路的责任,也所谓「一带一路」。

那么,所谓影响力,用论文的被引数是不是能成为一个参考呢?

我曾经听其他学科的教授半开玩笑地说,论文里除了介绍(introduction)那一节的引用算,其他的引用都是充数。假如把实验部分的引用也算上,这话是有些道理的,换句话说,即便被引,也不代表有相同的影响力。

另外,「影响」这个词也相当主观,因每个研究者的领域不同而异。我自己从系统界跨界过来,根基不扎实,而且做得杂。正因为如此,我十分期待大赛其他评委的推荐以及最后的结果——这是一个虽然貌似主观但事实上更客观的标准:到底哪些工作启发了你?

无论如何,我希望大家不要愧对了「世界 AI 大会」这么大的名头。

我的推荐事先征求了不少同行的意见,包括纽约大学 CIRVR 实验室的几位我很看重的老师。结果大家也看见了,主要集中在工业界的几个聚合了很多天才的实验室,也有小部分学校,并不在中国。

我认为中国 AI 不是第二,而是第一——但是是应用转化和落地的第一。在原创性上,我们暂时不需要去比,因为既没有比的必要,也没有比的可能。中国在 AI 发展的道路上,其位置一直处于一个巨大的原创 IP 的市场,而不是产地。为此,我们避免了大量的试错成本。

但有句老话说得好:出来混,早晚要还的。是不是?

作者简介:

张峥:上海纽约大学计算机终身教授,纽约大学库朗数学研究所、计算机系、数据学院兼职教授,美国伊利诺大学香槟大学(UIUC)博士。中组部千人计划专家。《知识分子》88人专家委员会成员。原惠普中央研究院研究员,原微软亚洲研究院系统研究方向创始人、首席研究员、副院长,主要研究领域为深度学习和人工智能、高性能大容量计算和存储系统,在国际会议获多次最佳论文, 在微软和惠普获卓越贡献奖。开源深度学习平台MXNet的共同创始人和顾问。

理论上海纽约大学世界AI大会
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

MXNet技术

MXNet是开源的,用来训练部署深层神经网络的深度学习框架。它是可扩展的,允许快速模型训练,并灵活支持多种语言(C ++,Python,Julia,Matlab,JavaScript, Go,R,Scala,Perl,Wolfram语言)

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

多任务学习技术

语义学技术

语义学,也作“语意学”,是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性,但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义,这里的自然语言可以是词汇,句子,篇章等等不同级别的语言单位。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

暂无评论
暂无评论~