Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

思源 刘晓坤作者

机器之心年度盘点:2018年重大研究与开源项目

2018 年即将结束,要问今年深度学习领域有什么要关注的进展,恐怕首先想到的就是 Deepmind 的 BigGAN 和 Google 的 BERT。这两项进展有一些共同点:除了弱监督或无监督,那就是大,数据大,模型大,计算大,算法改动没那么大,主要靠计算。

但是除了它们,今年还是有很多非常美的想法,例如强行解积分的强大流模型 Glow、基于图结构的广义神经网络,以及拥有连续层级的神经常微分方程。它们为深度学习开拓了新方向,也为未来提供了更多选择。

在这篇文章中,机器之心从想法到实践介绍了 2018 年令人瞩目的研究工作,它们共同构建了机器学习的当下。我们主要按领域从模型到开源工具展开,其中算法或模型的选择标准主要是效果和潜力,而开源工具的选择主要凭借 GitHub 的收藏量与效果。本文的目录如下所示:

自然语言处理

  • 预训练语言模型

  • 机器翻译

  • 谷歌 Duplex

生成模型

  • 大大的 GAN

  • 流模型

神经网络新玩法

  • 神经网络

  • 神经常微分方程

计算机视觉

  • 视觉迁移学习

强化学习与游戏

  • 徳扑

  • 星际争霸

  • Dota

量子计算

  • 绝对界限

  • 相对界限

开源工具

  • 强化学习框架 Dopamine

  • 图网络库(Graph Nets library)

  • 神经网络框架 DGL

  • Auto Keras

  • TransmogrifAI

  • 目标检测框架 Detectron

  • NLP 建模框架 PyText

  • BERT 开源实现

  • 大规模稀疏框架 XDL

  • 面向前端的 TensorFlow.js

自然语言处理

在即将过去的 2018 年中,自然语言处理有很多令人激动的想法与工具。从概念观点到实战训练,它们为 NLP 注入了新鲜的活力。其中最突出的就是机器翻译与预训练语言模型,其中机器翻译已经由去年的 Seq2Seq 到今年大量使用 Transformer,而预训练语言模型更是从 ELMo 到 BERT 有了长足发展。

预训练语言模型

大概在前几年,很多人认为预训练的意义不是特别大,都感觉直接在特定任务上做训练可能效果会更好。但是随着计算机视觉领域中预训练模型的广泛使用,很多 NLP 的研究者也在思考是不是能有一种方法,它可以将通用的语言知识迁移到不同的 NLP 任务中。

很快大家就选定了语言模型,首先它是一种无监督方式,所以训练样本很容易获取。其次语言模型能预测一个词序列是人类话语的概率,因此某种意义上它包含了通用的语言知识。因此在 2018 年中,使用预训练语言模型可能是 NLP 领域最显著的趋势,它可以利用从无监督文本中学习到的「语言知识」,并迁移到各种 NLP 任务中。

这些预训练模型有很多,包括 ELMo、ULMFiT、OpenAI Transformer 和 BERT,其中又以 BERT 最具代表性,它在 11 项 NLP 任务中都获得当时最佳的性能。不过目前有 9 项任务都被微软的新模型超过。

ULMFiT

ULMFiT 由 Sebastian Ruder 和 fast.ai 的 Jeremy Howard 设计,是首个将迁移学习应用于 NLP 的框架。ULMFiT 表示 Universal Language Model Fine-Tuning(通用语言模型微调)。ULMFiT 真的实现了「通用」,该框架可用于几乎所有 NLP 任务。

  • 论文:Universal Language Model Fine-tuning for Text Classification

  • 论文地址:https://arxiv.org/pdf/1801.06146.pdf

ULMFiT 最好的地方在于我们不用再从头训练模型了。研究者把最难的部分做好了,直接将他们做好的模型用到自己的项目中即可。ULMFiT 在六个文本分类任务上优于之前最优的方法。

ULMFiT 主要可以分为三个阶段:

  • 在通用领域实现语言模型的预训练

  • 在目标任务实现语言模型的微调

  • 在目标任务的分类器微调

如上所示,ULMFiT 主要由三阶段组成。(a)中的预训练语言模型能捕获自然语言的一般特征,而(b)中的语言模型会使用判别性的微调(Discr)和斜三角式的学习率来进行调整,它将在目标任务上学习到特定的特征。最后(c)表示分类器在目标任务上的微调,其中灰色表示不固定权重的阶段,而黑色表示固定权重的阶段,这样能保留低级表示而适应地调整高级表示。

感兴趣的读者可参考以下内容:

  • https://github.com/prateekjoshi565/ULMFiT_Text_Classification

  • http://nlp.fast.ai/category/classification.html

ELMo

ELMo 是 Embeddings from Language Models 的缩写。ELMo 一经发布即引起了机器学习社区的关注,它使用语言模型来获取每个单词的词嵌入,同时考虑单词在句子或段落中的语境。这种添加了语境信息的词表征可以表示复杂的语言知识,因此也就可以编码整个句子的信息。

  • 论文:Deep contextualized word representations

  • 论文链接:https://arxiv.org/pdf/1802.05365.pdf

具体而言,研究者使用从双向 LSTM 中得到的向量,该 LSTM 是使用正向和反向两个语言模型(LM)在大型文本语料库上训练得到的。用这种方式组合内部状态可以带来丰富的词表征。研究者使用内在评价进行评估,结果显示更高级别的 LSTM 状态捕捉词义的语境依赖方面(如它们不经修改就可以执行监督式词义消歧任务,且表现良好),而较低级别的状态建模句法结构(如它们可用于词性标注任务)。同时揭示所有这些信号是非常有益的,可以帮助学得的模型选择对每个任务最有帮助的半监督信号。

与 ULMFiT 类似,ELMo 极大提升了在大量 NLP 任务上的性能,如情感分析和问答任务。如下展示了 ELMo 在不同 NLP 任务中的效果,将 ELMo 加入到已有的自然语言系统将显著提升模型效果。

更多信息及预训练 ELMo 模型可查看:https://allennlp.org/elmo

NAACL 2018 | 最佳论文:艾伦人工智能研究所提出新型深度语境化词表征

BERT

BERT 是一种新型语言表征模型——来自 Transformer 的双向编码器表征。与最近的语言表征模型不同,BERT 旨在基于所有层的左、右语境来预训练深度双向表征。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型,其性能超越许多使用任务特定架构的系统,刷新了 11 项 NLP 任务的当前最优性能记录。

机器之心曾解读过 BERT 的的核心过程,它会先从数据集抽取两个句子,其中第二句是第一句的下一句的概率是 50%,这样就能学习句子之间的关系。其次随机去除两个句子中的一些词,并要求模型预测这些词是什么,这样就能学习句子内部的关系。最后再将经过处理的句子传入大型 Transformer 模型,并通过两个损失函数同时学习上面两个目标就能完成训练。

如上所示为不同预训练模型的架构,BERT 可以视为结合了 OpenAI GPT 和 ELMo 优势的新模型。其中 ELMo 使用两条独立训练的 LSTM 获取双向信息,而 OpenAI GPT 使用新型的 Transformer 和经典语言模型只能获取单向信息。BERT 的主要目标是在 OpenAI GPT 的基础上对预训练任务做一些改进,以同时利用 Transformer 深度模型与双向信息的优势。

这种「双向」的来源在于 BERT 与传统语言模型不同,它不是在给定所有前面词的条件下预测最可能的当前词,而是随机遮掩一些词,并利用所有没被遮掩的词进行预测。

更详细的论文解读可以查看:谷歌终于开源 BERT 代码:3 亿参数量,机器之心全面解读 

此外,BERT 的开源项目非常有诚意,谷歌研究团队开放了好几种预训练模型,它们从英语到汉语支持多种不同的语言。很多开发者在这些 BERT 预训练语言模型上做二次开发,并在不同的任务上获得很多提升,BERT 开源项目将放在文章后面,并与其它开源库一起介绍。

机器翻译

在 2018 年里,神经机器翻译似乎有了很大的改变,以前用 RNN 加上注意力机制打造的 Seq2Seq 模型好像都替换为了 Tramsformer。大家都在使用更大型的 Transformer、更高效的 Transformer 组件。例如阿里根据最近的一些新研究对标准 Transformer 模型进行一些修正。这些修正首先体现在将 Transformer 中的 Multi-Head Attention 替换为多个自注意力分支,其次他们采用了一种编码相对位置的表征以扩展自注意力机制,并令模型能更好地理解序列元素间的相对距离。

有道翻译也采用了 Transformer,他们同样会采取一些修正,包括对单语数据的利用、模型结构的调整、训练方法的改进等。例如在单语数据的利用上,他们尝试了回译和对偶学习等策略,在模型结构上采用了相对位置表征等。所以总的而言,尽管 Transformer 在解码速度和位置编码等方面有一些缺点,但它仍然是当前效果最好的神经机器翻译基本架构。

Sebastian Ruder 非常关注无监督机器翻译模型,如果无监督机器翻译模型是能行得通的,那么这个想法本身就很惊人,尽管无监督翻译的效果很可能远比有监督差。在 EMNLP 2018 中,有一篇论文在无监督翻译上更进一步提出了很多改进,并获得极大的提升。Ruder 笔记中提到了以下这篇论文:

  • 论文:Phrase-Based & Neural Unsupervised Machine Translation

  • 论文链接:https://arxiv.org/abs/1804.07755

这篇论文很好地提炼出了无监督 MT 的三个关键点:优良的参数初始化、语言建模和通过回译建模反向任务。这三种方法在其它无监督场景中也有使用,例如建模反向任务会迫使模型达到循环一致性,这种一致性已经应用到了很多任务,读者最熟悉的可能是 CycleGAN。该论文还对两种语料较少的语言做了大量的实验与评估,即英语-乌尔都语和英语-罗马尼亚语。

无监督 MT 的三个主要原则:A)两种单语数据集、B)参数初始化、C)语言建模、D)回译。

这篇论文获得了 EMNLP 2018 的最佳长论文奖,它在遵循上面三个主要原则的情况下简化了结构和损失函数,得到的模型优于以前的方法,并且更易于训练和调整。

谷歌 Duplex

2018 谷歌 I/O 开发者大会正式介绍了一种进行自然语言对话的新技术 Google Duplex。这种技术旨在完成预约等特定任务,并使系统尽可能自然流畅地实现对话,使用户能像与人对话那样便捷。Duplex 基于循环神经网络TensorFlow Extended(TFX)在匿名电话会话数据集上进行训练。这种循环网络使用谷歌自动语音识别(ASR)技术的输出作为输入,包括语音的特征、会话历史和其它会话参数。谷歌会为每一个任务独立地训练一个理解模型,但所有任务都能利用共享的语料库。此外,谷歌还会使用 TFX 中的超参数优化方法优化模型的性能。

如下所示,输入语音将输入到 ASR 系统并获得输出,在结合 ASR 的输出与语境信息后可作为循环神经网络的输入。这一深度 RNN 最终将基于输入信息输出对应的响应文本,最后响应文本可传入文本转语音(TTS)系统完成对话。RNN 的输出与 TTS 系统对于生成流畅自然的语音非常重要,这也是 Duplex 系统关注的核心问题。

在 Duplex 系统的语音生成部分,谷歌结合了拼接式的 TTS 系统和合成式的 TTS 系统来控制语音语调,即结合了 Tacotron 和 WaveNet。

生成模型

生成对抗网络在 2018 年仍然是研究的重点,我们不仅看到可以生成高分辨率(1024×1024)图像的模型,还可以看到那些以假乱真的生成图像。此外,我们还很兴奋能看到一些新的生成模型,它们没有采用对抗式的训练方式,其主要代表就是流模型 Glow。

大大的 GAN

今年 9 月份,DeepMind 团队创造出「史上最强 GAN」,该研究被接收为 ICLR 2019 的 oral 论文。很多学者惊呼:不敢相信这样高质量的图像竟是 AI 生成出来的。

  • 论文:LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS 

  • 论文地址:https://arxiv.org/pdf/1809.11096.pdf

BigGAN 生成图像的目标和背景都高度逼真、边界自然,并且图像插值每一帧都相当真实,简直能称得上「创造物种的 GAN」。当在 128x128 分辨率的 ImageNet 上训练时,BigGAN 可以达到 166.3 的 Inception 分数(IS),而之前的最佳 IS 仅为 52.52。

研究者还成功地在 256x256 分辨率和 512x512 分辨率的 ImageNet 上训练了 BigGAN,并得到非常逼真的图像。但这么好的效果,是靠巨大的计算力来推动。在原论文中,DeepMind 表示 BigGAN 会在谷歌 TPU v3 pod 上训练,且根据任务使用不同的核心数,128x128 的图像使用 128 个核心数(64 块芯片),512x512 的图像使用 512 个核心数(256 块芯片)。

此外,今年 12 月,英伟达提出了另一种高精度 GAN。这款新型 GAN 生成器架构借鉴了风格迁移研究,可对高级属性(如姿势、身份)进行自动学习和无监督分割,且生成图像还具备随机变化(如雀斑、头发)。

  • 论文:A Style-Based Generator Architecture for Generative Adversarial Networks

  • 论文链接:https://arxiv.org/pdf/1812.04948.pdf

英伟达提出的这种基于风格的生成器能构建非常高分辨率的人脸图像,即 1024×1024 分辨率的图像,详情可查看以下视频:

学界 | 史上最强 GAN 图像生成器,Inception 分数提高两倍

英伟达再出 GAN 神作!多层次特征的风格迁移人脸生成器

流模型

目前,生成对抗网络 GAN 被认为是在图像生成等任务上最为有效的方法,越来越多的学者正朝着这一方向努力:在计算机视觉顶会 CVPR 2018 上甚至有 8% 的论文标题中包含 GAN。今年来自 OpenAI 的研究科学家 Diederik Kingma 与 Prafulla Dhariwal 却另辟蹊径,他们提出了基于流的生成模型 Glow。据介绍,该模型不同于 GAN 与 VAE,在生成图像任务上也达到了令人惊艳的效果。

该研究一经发表,立刻引起了机器学习社区的注意,很多研究者表示:终于,我们有了 GAN 以外的优秀生成模型

  • 论文:Glow: Generative Flow with Invertible 1×1 Convolutions

  • 论文地址:https://d4mucfpksywv.cloudfront.net/research-covers/glow/paper/glow.pdf

OpenAI 创造的 Glow 是一种使用可逆 1×1 卷积的可逆生成模型,它可以生成逼真的高分辨率图像,支持高效率采样,并能发现用于操作数据属性的特征。目前,OpenAI 已经发布了该模型的代码,并开放了在线可视化工具,供人们试用。

详细的内容可参考机器之心的介绍性文章与苏剑林发布在 PaperWeekly 的解读:

下一个 GAN?OpenAI 提出可逆生成模型 Glow

细水长 flow 之 NICE:流模型的基本概念与实现

RealNVP 与 Glow:流模型的传承与升华

神经网络新玩法

今年有很多研究从理论分析方面或结合其它领域来扩展深度学习,其中最突出的就是 DeepMind 和谷歌大脑等研究机构提出的图网络(Graph Network),以及多伦多大学陈天琦等研究者提出的神经常微分方程。

前者提出的图网络是一种新的 AI 模块,即基于图结构的广义神经网络图网络推广了以前各种对图进行操作的神经网络方法。借助微分方程,后者提出的 ODEnet 将神经网络离散的层级连续化了,因此反向传播也不再需要一点一点传、一层一层更新参数。

图网

图+深度学习一直都有很多研究工作,但今年最引人瞩目的是图网络(Graph Network),它由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提出。

  • 论文:Relational inductive biases, deep learning, and graph networks

  • 论文地址:https://arxiv.org/pdf/1806.01261.pdf

该论文提出的图网络(GN)框架定义了一类对图结构表征进行关系推理的函数。该 GN 框架泛化并扩展了多种图神经网络、MPNN 和 NLNN 方法,并支持从简单的构建模块建立复杂的架构。注意,这里避免了在「图网络」中使用「神经」术语,以反映它可以用函数而不是神经网络来实现,虽然在这里关注的是神经网络实现。

目前图网络在监督学习、半监督学习和无监督学习等领域都有探索,因为它不仅能利用图来表示丰富的结构关系,同时还能利用神经网络强大的拟合能力。

一般图网络将图作为输入,并返回一张图以作为输入。其中输入的图有 edge- (E )、node- (V ) 和 global-level (u) 属性,输入也有相同的结构,只不过会使用更新后的属性。如下展示了输入图、对图实现的计算及输出图,更详细的内容请参考原论文。

DeepMind 等机构提出「图网络」:面向关系推理

DeepMind 开源图网络库,一种结合图和神经网络的新方法

深度学习时代的图模型,清华发文综述图网

清华大学图神经网络综述:模型与应用

清华大学孙茂松组:图神经网络必读论文列表

神经常微分方程

在今年 NeruIPS 2018 中,来自多伦多大学的陈天琦等研究者成为最佳论文的获得者。他们提出了一种名为神经常微分方程的模型,这是一种新型深度神经网络。神经常微分方程不拘于对已有架构的修修补补,它完全从另外一个角度考虑如何以连续的方式借助神经网络对数据建模。

神经常微分方程走了另一条道路,它使用神经网络参数化隐藏状态的导数,而不是如往常那样直接参数化隐藏状态。这里参数化隐藏状态的导数就类似构建了连续性的层级与参数,而不再是离散的层级。因此参数也是一个连续的空间,我们不需要再分层传播梯度与更新参数。

具体而言若我们在层级间加入更多的层,且最终趋向于添加了无穷层时,神经网络就连续化了。我们可以将这种连续变换形式化地表示为一个常微分方程:

如果从导数定义的角度来看,当 t 的变化趋向于无穷小时,隐藏状态的变化 dh(t) 可以通过神经网络建模。当 t 从初始一点点变化到终止,那么 h(t) 的改变最终就代表着前向传播结果。这样利用神经网络参数化隐藏层的导数,就确确实实连续化了神经网络层级。

现在若能得出该常微分方程的数值解,那么就相当于完成了前向传播。也就是说若 h(0)=X 为输入图像,那么终止时刻的隐藏层输出 h(T) 就为推断结果。这是一个常微分方程的初值问题,可以直接通过黑箱的常微分方程求解器(ODE Solver)解出来。而这样的求解器又能控制数值误差,因此我们总能在计算力和模型准确度之间做权衡。

如下所示,残差网络只不过是用一个离散的残差连接代替 ODE Solver。

更详细的论文解读可查看:硬核 NeruIPS 2018 最佳论文,一个神经了的常微分方程

计算机视觉

视觉迁移学习

人类的视觉具备多种多样的能力,计算机视觉界基于此定义了许多不同的视觉任务。长远来看,计算机视觉着眼于解决大多数甚至所有视觉任务,但现有方法大多尝试将视觉任务逐一击破。这种方法造成了两个问题:数据量大和冗余计算。

如果能有效测量并利用视觉任务之间的关联来避免重复学习,就可以用更少的数据学习一组任务。Taskonomy 是一项量化不同视觉任务之间关联、并利用这些关联来最优化学习策略的研究,相关论文获得了 CVPR 2018 的最佳论文奖。

如果两个视觉任务 A、B 具有关联性,那么在任务 A 中习得的表征理应可为解决任务 B 提供有效的统计信息。通过迁移学习,Taskonomy 计算了 26 个不同视觉任务之间的一阶以及高阶关联。例如对于 10 个视觉问题,利用 Taskonomy 提供的学习策略最大可以减少 2/3 的训练数据量。

由 Taskonomy 发现的一个示例任务结构。例如,从图中可以发现通过将曲面法线估计器和遮挡边缘检测器学习到的特征结合起来,用少量标注数据就能快速训练用于重描影和点匹配的优质网络。

抱歉我们今天想介绍的这篇论文,刚刚中了 CVPR 2018 最佳论文

CVPR 2018 最佳论文作者亲笔解读:研究视觉任务关联性的 Taskonomy

强化学习与游戏

博弈论存在两种类型:完美信息博弈和不完美信息博弈。

不完美信息博弈是指,博弈中的一个参与者不能知道其它参与者的所有行动信息,比如德扑。如果将环境也考虑在内,参与者可能对环境的所知信息也是不完美的,比如 MOBA(多人在线战术竞技游戏,包括星际争霸、Dota 等)。

围棋、国际象棋都属于完美信息博弈,它们显然不是今年的焦点。而德扑、星际争霸和 Dota 都在今年取得了引人注目的成果。

德扑

2017 年 11 月,来自 CMU 博士生 Noam Brown 和教授 Tuomas Sandholm 的一篇论文确证获得了 NeurIPS 2017 的最佳论文奖。

而在去年年初,在宾夕法尼亚州匹兹堡的 Rivers 赌场,CMU 开发的 Libratus 人工智能系统击败人类顶级职业玩家。此次比赛共持续 20 天,由 4 名人类职业玩家 Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou 对战人工智能程序 Libratus。在整个赛程中,他们总共对玩 12 万手,争夺 20 万美元的奖金。最终的结果是「比赛过程中,人类选手整体上从未领先过。」

Sandholm 教授的获奖论文,正是 Libratus 的技术解读。他们针对德扑的不完美信息博弈的特点,提出了一种无论在理论上还是在实践上都超越了之前方法的子博弈求解技术。Libratus 也是第一个能在一对一无限注德州扑克单挑中打败顶尖人类选手的 AI。

Libratus 在 2017 年 Brain vs. AI 大赛中的表现。

Libratus 并没有使用深度学习方法,最主要的算法是 CFR,这是一种类似强化学习 self-play 的算法,但其还考虑了未被选择的假设动作的收益。

由于序贯博弈在更深层阶段计算成本高昂,Libratus 在前半场需要数百万核心时间和数 TB 内存规模的资源。为此,他们在今年 5 月份又提出了一种在博弈的早期阶段就对深度有限(depth-limited)的子博弈进行求解的新方法,实现了新的德扑 AI——Modicum,其只需要一台笔记本电脑的算力就可以打败业内顶尖的 Baby Tartanian8(2016 计算机扑克冠军)和 Slumbot(2018 年计算机扑克冠军)。

关于 Libratus 和 AlphaGo 的对比,Noam Brown 曾经表示两者解决的是不同的问题,不能直接对比:围棋属于完美信息博弈,德扑属于不完美信息博弈。而在不完美信息博弈领域中,Noam Brown 曾表示下一个突破很可能是在星际争霸和 Dota(机智)。

NIPS 2017 最佳论文出炉:CMU「冷扑大师」不完美信息博弈研究获奖

一台笔记本打败超算:CMU 冷扑大师团队提出全新德扑 AI Modicum

星际争霸

由于观察空间和动作空间巨大、局部观察(不完美信息博弈)、多智能体同时游戏、长期决策等因素,《星际争霸 II》被认为是最难用 AI 攻克的游戏。在这种设置下,研究人员还是不得不求助于深度学习强化学习的结合。

今年,AI 界在《星际争霸 II》可谓收获颇丰。至少在特定设置下,我们已经攻克了全场游戏。实现这一目标的包括腾讯 AI Lab、南京大学和伯克利。

今年 9 月,腾讯 AI Lab、罗切斯特大学和西北大学联合提出了 TStarBots,在「深海暗礁地图,虫族 1 对 1」设置下在《星际争霸 II》全场游戏中打败了难度为 1-10 级的内置 bot,其中 8、9、10 级的内置 bot 允许作弊行为。这是首个能够在《星际争霸 II》全场游戏中击败内置 bot 的智能体。

TStarBot1 和 TStarBot2 智能体在不同难度等级下和内置 AI 比赛的胜率(100%)。

同样在 9 月,南京大学也在《星际争霸 II》上取得了突破。研究者让智能体通过观察人类专业选手游戏录像来学习宏动作,然后通过强化学习训练进一步的运营、战斗策略。他们还利用课程学习让智能体在难度渐进的条件下逐步习得越来越复杂的性能。在 L-7 难度的神族对人族游戏中,智能体取得了 93% 的胜率。这种架构也具有通用性更高的特点。

今年 11 月,伯克利在《星际争霸 II》中提出了一种新型模块化 AI 架构,该架构可以将决策任务分到多个独立的模块中。在虫族对虫族比赛中对抗 Harder(level 5)难度的暴雪 bot,该架构达到了 94%(有战争迷雾)的胜率。和 TStarBots 类似,他们也提出了分层、模块化架构,并手工设计了宏指令动作。伯克利的研究者解释道,二者不同之处在于,他们的智能体是在模块化架构下仅通过自我对抗及与几个脚本智能体对抗来训练的,直到评估阶段才见到内建 bot。

三项研究各有千秋,对架构设计的考量围绕着通用-专用权衡的主题,并且都抓住了宏指令(宏动作)定义的关键点,展示了分层强化学习的有效性。完全依靠深度学习强化学习仍然不够,结合人类定义的规则可以更有效地约束智能体的行为。至于可迁移性方面,或许南京大学提出的方法更具一般性。

首次!腾讯的人工智能在星际争霸 2 中打败了「开挂」内建 AI

伯克利星际争霸 II AI「撞车」腾讯,作者:我们不一样

Dota

2017 年 8 月,OpenAI 在 Dota2 TI 决赛现场以 1 对 1 solo 的方式击败了「Dota 2」世界顶级玩家。

今年,OpenAI 准备征服 5 v 5 团队赛,可谓吊足了大众的胃口。在正式征战 TI 8 之前,OpenAI 陆续预演了好几场热身赛,并接连带来惊喜。今年 6 月,OpenAI 宣布他们的 AI bot 在 5 v 5 团队赛中击败业余人类玩家,达到 4000 分水平。在 8 月初首次公开的基准测试赛中,OpenAI Five 以 2:1 的战绩击败了准职业玩家。

通过用机器学习取代硬编码,并结合训练环境随机化扩大探索空间,得到鲁棒的强化学习策略网络,OpenAI 去年借此攻克了 Dota 中的一个小游戏 Kiting,并成功迁移到了 1 v 1 模式中。而要进一步扩展到 5 v 5 团队战,最关键的一步就是扩大算力规模。OpenAI 最终使用了 128,000 CPU 核和 256 个 GPU 来支持算力,让 AI 每天自我博弈成千上万盘游戏,每天累计游戏时间达到 180 年。

人们原先认为,进行长时间和巨大探索空间的学习需要借助层级强化学习。然而,OpenAI 的结果表明,至少以足够的规模和合理的探索方式运行的时候,一般的强化学习方法也能收获奇效。

关观察空间,OpenAI 将 Dota2 世界表征为一个由 2 万个数值组成的列表;关于动作空间,OpenAI 设置了一个包含 8 个枚举值的列表,bot 根据这个列表的输出采取行动。

OpenAI Five 的每一个 bot 都配置了一个 LSTM 来生成事件记忆,通过近端策略优化来进行自我对抗,并合理分配对手来避免策略模式匮乏。通过给未来奖励设置合理的指数衰减,OpenAI Five 可以控制 bot 关注长期或者短期的奖励。OpenAI Five 还设置了一个很巧妙的「团队精神」参数,在训练过程中逐渐从 0 增加到 1,可以让 bot 从关注个人奖励过渡到团队奖励,也就是从学习个人基本技能到学习团队作战策略。在某种程度上,这也可以说是一种隐含的层级强化学习

OpenAI Five 从随机参数开始,这些 bot 却能从盲目游走演变出 Dota 老司机非常熟悉的经典技能,令人惊叹。

在收获赞誉的同时,对 OpenAI Five 的质疑也铺天盖地而来。

尽管是从随机参数开始训练,但 OpenAI Five 在严格意义上并不能说是「从零开始」训练,并且其游戏条件和人类玩家也有很大的不同。OpenAI Five 的 bot 的观察输入并不是游戏界面的直接呈现,而是通过 API 读取的结构化数据(也就是那 2 万个数值组成的列表),各种距离度量都可以轻易完成,这和人类玩家的度量方式显然大不相同,并具有精度和速度上的优势。当然,目前的视觉强化学习仍然处于初步阶段。而出现这些质疑也是合理的,毕竟攻克一个游戏相对于迁移到现实世界而言,仍然只是个小问题。

关于英雄池的限制问题这里就不讨论了,感兴趣的读者可以参考机器之心的报道。

在 8 月末的 TI 8 正式比赛中,OpenAI Five 却遭遇两场连败,尴尬收场。

至于下一步,OpenAI 是否会考虑《星际争霸 II》AI 广泛采用的层级强化学习呢?此外,以和玩家相同的游戏界面作为观察输入进行视觉强化学习,这样的结果是不是更能让人信服呢?我们,再等等吧。

OpenAI 人工智能 1v1 击败 Dota2 最强玩家:明年开启 5v5 模式

Dota 2 被攻陷!OpenAI 人工智能 5V5 模式击败人类玩家(4000 分水平)

毫无还手之力!OpenAI 人工智能 5v5 击败超凡 5 玩家(6600 水平)

面对最菜 TI 战队,OpenAI 在 Dota2 上输的毫无还手之力

ROTK!OpenAI 对战中国 Dota2 大神再次惨败

深度 | 嵌入技术在 Dota2 人工智能战队 OpenAI Five 中的应用

量子计算

量子计算在理论上超越了经典计算,却给经典机器学习算法带来了灵感。

绝对界限

计算机科学家 Ran Raz 和 Avishay Tal 证明只有量子计算机可以解决 forrelation 问题,而传统计算机却永远无法解决。从计算复杂度的角度来讲就是,他们找到了一个属于 BQP、而不属于 PH 的问题。其中,PH 涵盖了任何可能的传统计算机所能解决的问题,BQP 涵盖了量子计算机可以解决的所有问题。

科学家早就证明 BQP 包含 P,但一直未能证明是否真包含 P。而 P∈NP∈PH,现在 Ran Raz 和 Avishay Tal 的结果也顺带证明了 BQP 真包含 P。

这个结果的意义还在于,即使将来人们证明 P=NP,传统计算机和量子计算机之间仍然存在根本的区别。

相对界限

来自 UT Austin 的 Ewin Tang 提出了一种非常高效的「Quantum inspired」经典推荐系统算法,相比于之前的最快经典算法有指数级提高,并和量子推荐系统算法的速度相当。Tang 的结果让人们看到了另一条路径,即使传统计算和量子计算存在绝对的界限,但对于具体的问题,还是可能找到类似计算复杂度的解法。毕竟这种界限的证明只是存在性的。在距离量子计算机实用还很遥远的当下,或许「量子快速算法的经典化」是更值得探索的一个方向。就在近期,Tang 再次证明了低秩矩阵的量子矩阵求逆算法也存在有效的经典变体。

经典计算的天花板:科学家找到只有量子计算才能解决的问题

十八岁华裔天才携手「量子计算先驱」再次颠覆量子计算

开源工具与库

在过去的 2018 年中,不仅理论上有很多突破,实践上也有非常多的开源工作。这些开源工作不仅包括已有项目的更新,同时还包括针对新想法的新项目。前者主要体现在 PyTorch 1.0、Julia 1.0 和 PaddlePaddle 1.0 等的发布,后者主要体现在 TensorFlow.js、Detectron、PyText 和 Auto Keras 等新项目的开源。

在这一部分中,我们主要关注今年发布的新项目,其它优秀项目的重大更新并不会包含在内。

强化学习框架 Dopamine

在过去几年里,强化学习研究取得了多方面的显著进展。然而,大多数现有强化学习框架并不同时具备可让研究者高效迭代 RL 方法的灵活性和稳定性,因此探索新的研究方向可能短期内无法获得明显的收益。因此谷歌介绍了一款基于 TensorFlow 的新框架,旨在为强化学习研究者及相关人员提供具备灵活性、稳定性及复现性的工具。

  • 项目地址:https://github.com/google/dopamine

该框架的灵感来自于大脑中奖励–激励行为的主要组成部分「多巴胺」(Dopamine),这反映了神经科学和强化学习研究之间的密切联系,该框架旨在支持能够推动重大发现的推测性研究。

业界 |「多巴胺」来袭!谷歌推出新型强化学习框架 Dopamine

除了谷歌发布的这种具有易用性和可复用性的 RL 框架,在强化学习领域中,OpenAI 还发布了 Spinning Up。它是一份完整的教学资源,旨在让所有人熟练掌握深度强化学习方面的技能。Spinning Up 包含清晰的 RL 代码示例、习题、文档和教程。

  • 项目地址:https://spinningup.openai.com/en/latest/ 

从 Zero 到 Hero,OpenAI 重磅发布深度强化学习资源

图网络库(Graph Nets library)

DeepMind 开源的这个项目主要是依据他们在 6 月份发表的论文《Relational inductive biases, deep learning, and graph networks》,他们在该论文中将深度学习与贝叶斯网络进行了融合,并提出了一种具有推理能力的概率图模型。

  • 项目地址:https://github.com/deepmind/graph_nets

图网络库可以用 TensorFlow 和 Sonnet 快速构建图网络,它还包含一些 demo,展示了如何创建、操作及训练图网络以在最短路径搜索任务、排序任务和物理预测任务中进行图结构数据推理。每个 demo 使用相同的图网络结构,该结构可以凸显该方法的复杂性。

资源 | DeepMind 开源图网络库,一种结合图和神经网络的新方法

神经网络框架 DGL

目前摆在深度学习面前有一个很现实的问题,即如何设计「既快又好」的深度神经网络?也许更加动态和稀疏的模型会是答案所在。可见,不论是数据还是模型,「图」应该成为一个核心概念。

基于这些思考,NYU、AWS 开发了 Deep Graph Library(DGL),一款面向图神经网络以及图机器学习的全新框架。

  • 项目地址:https://github.com/jermainewang/dgl

目前 DGL 提供了 10 个示例模型,涵盖了单静态图、多图和巨图三种类别。其中除了 TreeLSTM,其余都是 2017 年以后新鲜出炉的图神经网络,其中包括几个逻辑上相当复杂的生成模型(DGMG、JTNN)。他们还尝试用图计算的方式重写传统模型比如 Capsule 和 Universal Transformer,让模型简单易懂,帮助进一步扩展思路。

NYU、AWS 联合推出:全新图神经网络框架 DGL 正式发布

Auto Keras

AutoKeras 是一个由易用深度学习库 Keras 编写的开源 Python 包。AutoKeras 使用 ENAS——神经网络自动架构搜索的高效新版本。AutoKeras 包可通过 pip install autokeras 快速安装,然后你就可以免费在准备好在的数据集上做你自己专属的架构搜索。

  • 项目地址:https://github.com/jhfjhfj1/autokeras

因为所有的代码都是开源的,所以如果你想实现真正的自定义,你甚至可以利用其中的参数。所有代码都来自 Keras,所以代码深入浅出,能帮助开发人员快速准确地创建模型,并允许研究人员深入研究架构搜索。

终结谷歌每小时 20 美元的 AutoML!开源的 AutoKeras 了解下 

TransmogrifAI

软件行业巨头 Salesforce 开源了其 AutoML 库 TransmogrifAI。TransmogrifAI 是一个基于 Scala 语言和 SparkML 框架构建的库,只需短短的几行代码,数据科学家就可以完成自动化数据清理、特征工程和模型选择工作,得到一个性能良好的模型,然后进行进一步的探索和迭代。

  • 项目地址:https://github.com/salesforce/TransmogrifAI

TansmogrifAI 为我们带来了巨大的改变,它使数据科学家在生产中使用最少的手动调参就能部署数千个模型,将训练一个性能优秀模型的平均时间从数周减少到几个小时。

Salesforce 开源 TransmogrifAI:用于结构化数据的端到端 AutoML 库

最后,AutoML 类的工作在 18 年还有很多,不过要分清楚这些概念,可以读一读下面的文章:

观点 | AutoML、AutoKeras...... 这四个「Auto」的自动机器学习方法你分得清吗?

目标检测框架 Detectron

今年 Facebook 开源的目标检测框架 Detectron 目前已有超过 1.8W 的收藏量,它构建于 Caffe2 之上,目前支持大量顶尖目标检测算法。其中包括 Mask R-CNN(ICCV 2017 最佳论文)和 Focal Loss for Dense Object Detection(ICCV 2017 最佳学生论文)。

  • 项目地址:https://github.com/facebookresearch/Detectron

目前 Detectron 已经包括检测、分割和关键点检测等众多任务的顶尖算法,且一旦训练完成,这些计算机视觉模型可被部署在云端或移动设备上。下图展示了 Model Zoo 中 Mask-R-CNN 关键点检测的基线结果,它还有很多任务与模型。

机器之心曾介绍过 Detectron,读者可以阅读以下文章了解详情:

资源 | 整合全部顶尖目标检测算法:FAIR 开源 Detectron

专栏 | 从论文到测试:Facebook Detectron 开源项目初探 

专栏 | Detectron 精读系列之一:学习率的调节和踩坑 

与此同时,商汤和港中文今年 10 月份联合开源了 mmdetection,它是一个基于 PyTorch 的开源目标检测工具包。该工具包支持 Mask RCNN 等多种流行的检测框架,读者可在 PyTorch 环境下测试不同的预训练模型及训练新的检测分割模型。

资源 | 一个基于 PyTorch 的目标检测工具箱,商汤联合港中文开源 mmdetection

NLP 建模框架 PyText

为了降低人们创建、部署自然语言处理系统的难度,Facebook 开源了一个建模框架——PyText,它模糊了实验与大规模部署之间的界限。PyTex 是 Facebook 正在使用的主要自然语言处理(NLP)建模框架,每天为 Facebook 及其应用程序系列的用户提供超过 10 亿次 AI 任务处理。这一框架基于 PyTorch,可以 1)简化工作流程,加快实验进度;2)提供一大批预构建的模型架构和用于文本处理和词汇管理的工具,以促进大规模部署;3)提供利用 PyTorch 生态系统的能力,包括由 NLP 社区中的研究人员、工程师预构建的模型和工具。利用该框架,Facebook 在几天内就实现了 NLP 模型从理念到完整实施的整个过程,还部署了依赖多任务学习的复杂模型。

Yann LeCun 对此介绍道,「PyText 是一个工业级的开源 NLP 工具包,可用于在 PyTorch 中开发 NLP 模型,并通过 ONNX 部署。其预训练模型包括文本分类、序列标注等。」

  • 项目地址:https://github.com/facebookresearch/pytext

参考文章:Facebook 开源 NLP 建模框架 PyText,从论文到产品部署只需数天

自然语言处理词嵌入基本是绕不开的步骤,各种任务都需要归结到词层面才能继续计算。因此对于国内自然语言处理的研究者而言,中文词向量语料库是需求很大的资源。为此,北京师范大学等机构的研究者开源了「中文词向量语料库」,该库包含经过数十种用各领域语料(百度百科、维基百科、人民日报 1947-2017、知乎、微博、文学、金融、古汉语等)训练的词向量,涵盖各领域,且包含多种训练设置。

  • 中文词向量项目地址:https://github.com/Embedding/Chinese-Word-Vectors

该项目提供使用不同表征(稀疏和密集)、上下文特征(单词、n-gram、字符等)以及语料库训练的中文词向量(嵌入)。我们可以轻松获得具有不同属性的预训练向量,并将它们用于各类下游任务。

BERT 开源实现

尽管如前所述 BERT 的效果惊人,但预训练所需要的计算力同样惊人,一般的开发者基本就不要想着能复现了。BERT 的作者在 Reddit 上也表示预训练的计算量非常大,Jacob 说:「OpenAI 的 Transformer 有 12 层、768 个隐藏单元,他们使用 8 块 P100 在 8 亿词量的数据集上训练 40 个 Epoch 需要一个月,而 BERT-Large 模型有 24 层、2014 个隐藏单元,它们在有 33 亿词量的数据集上需要训练 40 个 Epoch,因此在 8 块 P100 上可能需要 1 年?16 Cloud TPU 已经是非常大的计算力了。」

但是,谷歌团队开源了 BERT 的预训练模型,我们可以将它们用于不同的 NLP 任务。这节省了我们大量计算力,同时还能提升已有模型的效果,因此做 NLP 任务前,你可以先用预训练的 BERT 试试水?

  • BERT 实现地址:https://github.com/google-research/bert

其实目前已经有很多开发者将 BERT 预训练模型应用到它们自己的项目中,包括抽取句向量、句子相似性判断或情感分析等,下面两篇文章简单介绍了如何将 BERT 预训练模型迁移到你的项目中:

小数据福音!BERT 在极小数据下带来显著提升的开源实现

两行代码玩转 Google BERT 句向量词向量

大规模稀疏框架 XDL

今年 12 月,阿里巴巴开源了其应用于自身广告业务的算法框架 X-Deep Learning(XDL)。该框架非常擅长处理高维稀疏数据,对构建推荐、搜索和广告系统非常有优势。此外,阿里还配套发布了一系列官方模型,它们都是阿里在实际业务或产品中采用的高效模型。

  • 项目地址:https://github.com/alibaba/x-deeplearning

XDL 团队表示它主要在三个层面上对通用框架有比较大的提升:

  • 首先是对大规模稀疏性数据的建设;

  • 其次是结构化的计算流;

  • 最后在结构化的计算流基础上,模型的分布也需要结构化。

机器之心采访了 XDL 团队,并对该框架有一个详细的介绍,感兴趣的读者可查阅:

阿里开源首个 DL 框架,新型 XDL 帮你搞定大规模稀疏数据

面向前端的 TensorFlow.js 

在 TenosrFlow 开发者峰会 2018 中,TensorFlow 团队表示基于网页的 JavaScript 库 TensorFlow.js 现在已经能训练并部署机器学习模型。我们可以使用神经网络的层级 API 构建模型,并在浏览器中使用 WebGL 创建复杂的数据可视化应用。此外 Node.js 很快就会发布,它能为网站模型提供 GPU、TPU 等快速训练与推断的方法。

  • 项目地址:https://js.tensorflow.org/

TensorFlow.js 中,我们可以使用最底层的 JavaScript 线性代数库或最高级的 API 在浏览器上开发模型,也能基于浏览器运行已训练的模型。因此,它可以充分利用浏览器和计算机的计算资源实现非常多的机器学习应用。例如在网页端训练一个模型来识别图片或语音、训练一个模型以新颖的方式玩游戏或构建一个能创造钢琴音乐的神经网络等。

TensorFlow 发布面向 JavaScript 开发者的机器学习框架 TensorFlow.js 

最后,2018 年开源的开源工作实在是太多了,还有很多优秀的开源工作,例如小米开源的移动端框架 MACE 和英特尔开源的 nGraph 编译器。这里只是从不同的角度介绍少量的开源工作,读者也可以在留言中写出 2018 年你认为最重要的开源工作。

产业NLP计算机视觉生成模型强化学习量子计算开源库
5
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

词义消歧技术

在计算机语言学, 词义消歧(WSD) 是一个自然语言处理和本体论的开放问题 。 歧义与消歧是自然语言理解中最核心的问题,在词义、句义、篇章含义层次都会出现语言根据上下文语义不同的现象,消歧即指根据上下文确定对象语义的过程。 词义消歧即在词语层次上的语义消歧。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

数据清理技术

数据清理(data cleansing)指删除、更正数据库中错误、不完整、格式有误或多余的数据。数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清理软件能够自动检测数据文件,更正错误数据,并用全企业一致的格式整合数据。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

博弈论技术

博弈论,又译为对策论,或者赛局理论,应用数学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

CycleGAN技术

GAN的一个变种

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

概率图模型技术

在概率论和统计学中,概率图模型(probabilistic graphical model,PGM) ,简称图模型(graphical model,GM),是指一种用图结构来描述多元随机 变量之间条件独立关系的概率模型

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

暂无评论
暂无评论~