Sebastian Ruder作者

2020年这10大ML、NLP研究最具影响力:为什么?接下来如何发展?

去年有哪些机器学习重要进展是你必须关注的?听听 DeepMind 研究科学家怎么说。

2020 年因为新冠疫情,很多人不得不在家工作和学习,大量人工智能学术会议也转为线上。不过在去年我们仍然看到了很多 AI 技术领域的进展。DeepMind 研究科学家 Sebastian Ruder 近日帮我们对去年的机器学习社区进行了一番总结。

首先你必须了解的是:这些重点的选择基于作者个人熟悉的领域,所选主题偏向于表示学习、迁移学习,面向自然语言处理(NLP)。如果读者有不同的见解,可以留下自己的评论。

Sebastian Ruder 列出的 2020 年十大机器学习研究进展是:

大模型和高效模型

语言模型从 2018 年到 2020 年的发展(图片来自 State of AI Report 2020)。

2020 年发生了什么?

在过去的一年,我们看到了很多前所未有的巨型语言和语音模型,如 Meena(Adiwardana et al., 2020)、Turing-NLG、BST(Roller et al., 2020)GPT-3(Brown et al., 2020)。与此同时,研究人员们也早已意识到训练这样的模型要耗费过量的能源(Strubell et al., 2019),并转而探索体量更小、效果仍然不错的模型:最近的一些进展方向来自于裁剪((Sajjad et al., 2020、Sanh et al., 2020、)、量化(Fan et al., 2020b)、蒸馏(Sanh et al., 2019、Sun et al., 2020)和压缩(Xu et al., 2020)。

另有一些研究关注如何让 Transformer 架构本身变得更高效。其中的模型包括 Performer(Choromanski et al., 2020)和 Big Bird(Zaheer et al., 2020),如本文第一张图所示。该图显示了在 Long Range Arena 基准测试中不同模型的性能(y 轴)、速度(x 轴)和内存占用量(圆圈大小)(Tay et al., 2020)。

像 experiment-impact-tracker 这样的工具(Henderson et al., 2020)已让我们对于模型的能耗效率更为了解。其研究者还推动了评估效率的竞赛和基准测试,如 EMNLP 2020 上的 SustaiNLP 研讨会,NeurIPS 2020 上的 Efficient QA 竞赛和 HULK(Zhou et al., 2020。

模型体量的扩大可以让我们不断突破深度学习能力的极限。而为了在现实世界部署它们,模型必须高效。这两个方向也是相辅相成的:压缩大号模型可以兼顾效率和性能(Li et al., 2020),而效率更高的方法也可以推动更强、更大的模型(Clark et al., 2020)。

鉴于对效率和可用性的考虑,我认为未来研究的重点不仅仅是模型的表现和参数数量,也会有能耗效率。这会有助于人们对于新方法进行更全面的评估,从而缩小机器学习研究与实际应用之间的差距。

检索增强


使用 REALM 进行无监督预训练,检索器和编码器经过了联合预训练。

大规模模型可以利用预训练数据学习出令人惊讶的全局知识,这使得它们可以重建事实(Jiang et al., 2020)并在不接触外界上下文的情况下回答问题(Roberts et al., 2020)。然而,把这些知识隐式地存储在模型参数中效率很低,需要极大的模型来存储足量的信息。与之不同的是,最近的一些方法选择同时训练检索模型和大规模语言模型,在知识密集型 NLP 任务上获得了强大的结果,如开放域问答(Guu et al., 2020、Lewis et al., 2020)和语言建模(Khandelwal et al., 2020)。

这些方法的主要优点是将检索直接集成到语言模型的预训练中,从而让语言模型效率更高,专注于学习自然语言理解中更具挑战性的概念。因此在 NeurIPS 2020 EfficientQA 竞赛中的最佳系统依赖于检索(Min et al., 2020)。

检索是很多生成任务的标准方法,例如文本摘要和对话此前已大量被摘要生成所替代 (Allahyari et al., 2017)。检索增强生成可以将两个方面的优点结合在一起:检索段的事实正确性、真实性以及所生成文本的相关性和构成。

检索增强生成对于处理过去困扰生成神经模型的失败案例尤其有用,尤其是在处理幻觉(hallucination)上(Nie et al., 2019)。它也可以通过直接提供预测依据来帮助使系统更易于解释。

少样本学习

Prompt-based 微调使用模板化的提示和演示(Gao et al., 2020)。

在过去几年中,由于预训练的进步,给定任务的训练样本数量持续减少(Peters et al., 2018、Howard et al., 2018)。我们现在正处在可以使用数十个示例来完成给定任务的阶段(Bansal et al., 2020)。自然地,人们想到了少样本学习变革语言建模的范式,其中最为突出的例子就是 GPT-3 中上下文学习的方法。它可以根据一些输入 - 输出对和一个提示进行预测。无需进行梯度更新。

不过这种方式仍然有其限制:它需要一个巨大的模型——模型需要依赖现有的知识——这个模型能够使用的知识量受到其上下文窗口的限制,同时提示需要手工完成。

最近的一些工作试图通过使用小模型,集成微调和自动生成自然语言提示(Schick and Schütze, 2020、Gao et al., 2020、Shin et al., 2020)让少样本学习变得更加有效。这些研究与可控神经文本生成的更广泛领域紧密相关,后者试图广泛地利用预训练模型的生成能力。

有关这一方面,可以参阅 Lilian Weng 的一篇博客:
https://lilianweng.github.io/lil-log/2021/01/02/controllable-neural-text-generation.html

少样本学习可以使一个模型快速承接各种任务。但是为每个任务更新整个模型的权重是很浪费的。我们最好进行局部更新,让更改集中在一小部分参数里。有一些方法让这些微调变得更加有效和实用,包括使用 adapter(Houlsby et al., 2019、Pfeiffer et al., 2020a、Üstün et al., 2020),加入稀疏参数向量(Guo et al., 2020),以及仅修改偏差值(Ben-Zaken et al., 2020)。

能够仅基于几个范例就可以让模型学会完成任务的方法,大幅度降低了机器学习、NLP 模型应用的门槛。这让模型可以适应新领域,在数据昂贵的情况下为应用的可能性开辟了道路。

对于现实世界的情况,我们可以收集上千个训练样本。模型同样也应该可以在少样本学习和大训练集学习之间无缝切换,不应受到例如文本长度这样的限制。在整个训练集上微调过的模型已经在 SuperGLUE 等很多流行任务中实现了超越人类的性能,但如何增强其少样本学习能力是改进的关键所在。

对比学习


实例判别从同一个图像的不同转换之间比较特征(Caron et al., 2020)。

对比学习是一种为 ML 模型描述相似和不同事物的任务的方法。利用这种方法,可以训练机器学习模型来区分相似和不同的图像。

最近,对比学习在计算机视觉和语音的自监督表征学习(van den Oord, 2018; Hénaff et al., 2019)中越来越受欢迎。用于视觉表征学习的新一代自监督强大方法依赖于使用实例判别任务的对比学习:将不同图像视为 negative pairs,相同图像的多个视图视为 positive pairs。最近的方法进一步改善了这种通用框架:SimCLR(Chen et al., 2020)定义了增强型实例的对比损失;Momentum Contrast(He et al., 2020)试图确保大量且一致的样本对集合;SwAV(Caron et al., 2020)利用在线聚类;而 BYOL 仅使用 positive pairs(Grill et al., 2020)。Chen 和 He (2020) 进一步提出了一种与先前方法有关的更简单的表述。

最近,Zhao et al. (2020)发现数据增强对于对比学习至关重要。这可能表明为什么在数据增强不那么普遍的 NLP 中使用大型预训练模型进行无监督对比学习并不成功。他们还假设,实例判别比计算机视觉中的有监督预训练更好的原因是:它不会试图让一个类中所有实例的特征相似,而是保留每个实例的信息。在 NLP 中,Gunel et al. (2020)无监督的预训练涉及对成千上万个单词类型进行分类的问题不大。在 NLP 中,Gunel et al. (2020)最近采用对比学习进行有监督的微调。

语言建模中常用的 one-hot 标签与模型输出的 logit 之间的交叉熵目标存在一些局限性,例如在不平衡的类中泛化效果较差(Cao et al., 2019)。对比学习是一种可选择的补充范式,可以帮助缓解其中的一些问题。

对比学习与 masked 语言建模相结合能够让我们学习更丰富、更鲁棒的表征。它可以帮助解决模型异常值以及罕见的句法和语义现象带来的问题,这对当前的 NLP 模型是一个挑战。

要评估的不只是准确率

用于探索情感分析中否定性的理解的 CheckList 模板和测试(Ribeiro et al., 2020)。

NLP 中的 SOTA 模型已在许多任务上实现了超越人类的表现,但我们能否相信这样的模型可以实现真正的自然语言理解(Yogatama et al., 2019; Bender and Koller, 2020)?其实,当前的模型离这个目标还很远。但矛盾的是,现有的简单性能指标无法体现这些模型的局限性。该领域有两个关键主题:a)精选当前模型难以处理的样例;b)不只是选择准确率等简单指标,而是进行更细粒度的评估。

关于前者,常用的方法是在数据集创建过程中使用对抗过滤(Zellers et al., 2018),过滤出由当前模型正确预测的样例。最近的研究提出了更有效的对抗过滤方法(Sakaguchi et al., 2020; Le Bras et al., 2020)和一种迭代数据集创建处理方法(Nie et al., 2020; Bartolo et al., 2020),其中样例经过过滤,模型经过了多轮的重新训练。Dynabench 提供了此类不断变化的基准的子集。

针对第二点的方法在本质上也是相似的。该领域通常会创建 minimal pairs(也称为反事实样例或对比集)(Kaushik et al., 2020; Gardner et al., 2020; Warstadt et al., 2020),这些 minimal pairs 以最小的方式干扰了样例,并且经常更改 gold label。Ribeiro et al. (2020) 在 CheckList 框架中形式化了一些基本的直觉,从而可以半自动地创建此类测试用例。此外,基于不同的属性来描述样例可以对模型的优缺点进行更细粒度的分析(Fu et al., 2020)

为了构建功能更强大的机器学习模型,我们不仅需要了解模型是否优于先前的系统,还需要了解它会导致哪种错误以及还有哪些问题没被反映出来。通过提供对模型行为的细粒度诊断,我们可以更轻松地识别模型的缺陷并提出解决方案。同样,利用细粒度的评估可以更细致地比较不同方法的优缺点。

语言模型的现实应用问题

模型会根据看似无害的提示,生成有害的结果(Gehman et al., 2020)。

与 2019 年语言模型 (LMs) 分析侧重于此类模型所捕获的语法、语义和世界认知的氛围相比,最近一年的分析揭示了许多实际问题。

比如经过预训练的 LM 容易生成「有毒」的语言 (Gehman et al., 2020)」、泄露信息 (Song & Raghunathan, 2020)。还存在微调后易受到攻击的问题,以致攻击者可以操纵模型预测结果 (Kurita et al., 2020; Wallace et al., 2020),以及容易受到模型的影响(Krishna et al., 2020; Carlini et al., 2020)。

众所周知,预训练模型可以捕获关于受保护属性(例如性别)的偏见(Bolukbasi et al., 2016; Webster et al., 2020),Sun et al., 2019 的研究给出了一份减轻性别偏见的调查。

大公司推出的大型预训练模型往往在实际场景中会有积极的部署,所以我们更应该意识到这些模型存在什么偏见,又会产生什么有害的后果。

随着更大模型的开发和推出,从一开始就将这些偏见和公平问题纳入开发过程是很重要的。 

Multilinguality


全球标记 / 未标记语言数据的不均衡分布情况(Joshi et al., 2020)。

2020 年,多语言 NLP 有诸多亮点。旨在加强非洲语种 NLP 研究的 Masakhane 机构在第五届机器翻译会议 (WMT20) 上发表的主题演讲,是去年最令人鼓舞的演讲之一。此外,这一年还出现了其他语言的新通用基准,包括 XTREME (Hu et al., 2020)、XGLUE (Liang et al., 2020)、IndoNLU (Wilie et al., 2020)、IndicGLUE (Kakwani et al., 2020)。现有的数据集也拓展到了其他语言中,比如:

  • SQuAD: XQuAD (Artetxe et al., 2020), MLQA (Lewis et al., 2020), FQuAD (d'Hoffschmidt et al., 2020);

  • Natural Questions: TyDiQA (Clark et al., 2020), MKQA (Longpre et al., 2020);

  • MNLI: OCNLI (Hu et al., 2020), FarsTail (Amirkhani et al., 2020);

  • the CoNLL-09 dataset: X-SRL (Daza and Frank, 2020);

  • the CNN/Daily Mail dataset: MLSUM (Scialom et al., 2020)。


通过 Hugging Face 数据集可以访问其中的大部分数据集,以及许多其他语言的数据。涵盖 100 种语言的强大模型也就应运而生了,包括 XML-R (Conneau et al., 2020)、RemBERT (Chung et al., 2020)、InfoXLM (Chi et al., 2020)等,具体可参见 XTREME 排行榜。大量特定语言的 BERT 模型已经针对英语以外的语言进行了训练,例如 AraBERT (Antoun et al., 2020)和 IndoBERT (Wilie et al., 2020),查看 Nozza et al., 2020; Rust et al., 2020 的研究可以了解更多信息。借助高效的多语言框架,比如 AdapterHub (Pfeiffer et al., 2020)、Stanza (Qi et al., 2020)和 Trankit (Nguyen et al., 2020) ,世界上许多语种的建模和应用工作都变得轻松了许多。

此外,还有两篇很有启发的研究,《The State and Fate of Linguistic Diversity(Joshi et al., 2020)》和《Decolonising Speech and Language Technology (Bird, 2020)》。第一篇文章强调了使用英语之外语言的紧迫性,第二篇文章指出了不要将语言社区及数据视为商品。

拓展到英语之外的 NLP 研究有很多好处,对人类社会能产生实实在在的影响。考虑到不同语言中数据和模型的可用性,英语之外的 NLP 模型将大有作为。同时,开发能够应对最具挑战性设置的模型并确定哪些情况会造成当前模型的基础假设失败,仍然是一项激动人心的工作。

图像Transformers


Vision Transformer 的论文中,研究者将 Transformer 编码器应用于平坦图像块。

Transformer 在 NLP 领域取得了巨大的成功,但它在卷积神经网络 CNN 占据主导地位的计算机视觉领域却没那么成功。2020 年初的 DETR (Carion et al., 2020) 将 CNN 用于计算图像特征,但后来的模型完全是无卷积的。Image GPT (Chen et al., 2020)采用了 GPT-2 的方法,直接从像素进行预训练,其性能优于有监督的 Wide ResNet,后来的模型是将图像重塑为被视为「token」的补丁。Vision Transformer (ViT,Dosovitskiy et al., 2020)在数百万个标记好的图像上进行了训练,每一个图像都包含此类补丁,模型效果优于现有最新的 CNN。Image Processing Transformer(IPT,Chen et al., 2020)在被破坏的 ImageNet 示例上进行对比损失预训练,在 low-level 图像任务上实现了新的 SOTA。Data-efficient image Transformer (DeiT,Touvron et al., 2020) 以蒸馏方法在 ImageNet 上进行了预训练。

有趣的是,研究者们发现了 CNN 是更好的教师,这一发现类似于蒸馏归纳偏置(inductive bias)应用于 BERT (Kuncoro et al., 2020)。相比之下在语音领域,Transformer 并未直接应用于音频信号,而通常是将 CNN 等编码器的输出作为输入(Moritz et al., 2020; Gulati et al., 2020; Conneau et al., 2020)。

与 CNN 和 RNN 相比,Transformer 的归纳偏置更少。尽管在理论上,它不如 RNN (Weiss et al., 2018; Hahn et al., 2020)强大,但如果基于充足的数据和规模,Transformer 会超越其他竞争对手的表现。

未来,我们可能会看到 Transformer 在 CV 领域越来越流行,它们特别适用于有足够计算和数据用于无监督预训练的情况。在小规模配置的情况下,CNN 应该仍是首选方法和基线。


自然科学与机器学习

基于自注意力AlphaFold 架构。

去年,DeepMindAlphaFold 在 CASP 蛋白质折叠挑战赛中实现了突破性的表现,除此之外,将机器学习应用于自然科学还有一些显著的进展。MetNet (Sønderby et al., 2020)证明机器学习在降水预测方面优于数值天气预报;Lample 和 Charton(2020)采用神经网络求解微分方程,比商用计算机系统效果更好;Bellemare et al. (2020)使用强化学习为平流层的热气球导航。

此外,ML 现已被广泛应用于 COVID-19,例如 Kapoor 等人利用 ML 预测 COVID-19 的传播,并预测与 COVID-19 相关的结构,Anastasopoulos 等人将相关数据翻译成 35 种不同的语言,Lee 等人的研究可以实时回答有关 COVID-19 的问题。

有关 COVID-19 相关的 NLP 应用程序的概述,请参阅第一期 COVID-19 NLP 研讨会的会议记录:《Proceedings of the 1st Workshop on NLP for COVID-19 (Part 2) at EMNLP 2020》。

自然科学可以说是 ML 最具影响力的应用领域。它的改进涉及到生活的许多方面,可以对世界产生深远的影响。随着蛋白质折叠等核心领域的进展,ML 在自然科学中的应用速度只会加快。期待更多促进世界进步的研究出现。

强化学习


与最先进的智能体相比,Agent57 和 MuZero 整个训练过程中在雅达利游戏中的表现优于人类基准(Badia et al., 2020)。

单个深度强化学习智能体 Agent57(Badia et al., 2020)首次在 57 款 Atari 游戏上超过人类,这也是深度强化学习领域中的一个长期基准。智能体的多功能性来自于神经网络,该网络允许在探索性策略和利用性策略之间切换。

强化学习在游戏方面的另一个里程碑是 Schrittwieser 等人开发的 MuZero,它能预测环境各个方面,而环境对精确的规划非常重要。在没有任何游戏动态知识的情况下,MuZero 在雅达利上达到了 SOTA 性能,在围棋、国际象棋和日本象棋上表现也很出色。

最后是 Munchausen RL 智能体(Vieillard et al., 2020),其通过一个简单的、理论上成立的修改,提高了 SOTA 水平。

强化学习算法有许多实际意义 (Bellemare et al., 2020)。研究人员对这一领域的基本算法进行改进,通过更好的规划、环境建模和行动预测产生很大的实际影响。

随着经典基准(如 Atari)的基本解决,研究人员可能会寻找更具挑战性的设置来测试他们的算法,如推广到外分布任务、提高样本效率、多任务学习等。

参考内容:https://ruder.io/research-highlights-2020/
理论计算机视觉自然语言处理Deepmind
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

强生机构

强生公司成立于1886年,是全球最具综合性、业务分布范围广的医疗健康企业之一,业务涉及制药、医疗器材及消费品三大领域。强生坚信健康是活力人生、繁荣社区和不断进步的基础。正因如此,130多年来,公司始终致力于推进健康事业,让人们在每个年龄段和每个人生阶段都保持健康。

http://www.jnj.com/
围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

迁移学习技术

迁移学习 是属于机器学习的一种研究领域。它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。计算机领域的迁移学习和心理学常常提到的学习迁移在概念上有一定关系,但是两个领域在学术上的关系非常有限。

雅达利游戏技术

雅达利(英语:Atari,NASDAQ:ATAR)是美国诺兰·布什内尔在1972年成立的电脑公司,街机、家用电子游戏机和家用电脑的早期拓荒者。不少诸如《乓》、《爆破彗星》等的经典早期电脑游戏的发行,使雅达利在电子游戏历史上举足轻重。经典游戏主机为1977年发行的雅达利2600。

多任务学习技术

多任务学习是机器学习的一个子领域,在该子领域中,可以同时解决多个学习任务,同时可以利用任务之间的共同点和不同点。与单独训练模型相比,这可以提高特定于任务的模型的学习效率和预测准确性。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~