机器之心原创

2024/05/09 18:40

网传Ilya Sutskever的推荐清单火了，掌握当前AI 90%

随着生成式 AI 模型掀起新一轮 AI 浪潮，越来越多的行业迎来技术变革。许多行业从业者、基础科学研究者需要快速了解 AI 领域发展现状、掌握必要的基础知识。

如果有一份「机器学习精炼秘笈」，你认为应该涵盖哪些知识？

近日，一份网传 OpenAI 联合创始人兼首席科学家 Ilya Sutskever 整理的一份机器学习研究文章清单火了。网友称「Ilya 认为掌握了这些内容，你就了解了当前（人工智能领域） 90% 的重要内容。」

推荐清单：https://arc.net/folder/D0472A20-9C20-4D3F-B145-D2865C0A9FEE

从研究主题上看，Ilya Sutskever 重点关注 transformer 架构、循环神经网络（RNN）、长短期记忆网络（LSTM）、神经网络的复杂度等。

^{推荐清单部分截图。}

例如，Ilya 推荐谷歌在 2017 年发表的经典论文《Attention Is All You Need》，这是 transformer 架构的问世之作。transformer 架构今天已经成为人工智能领域的主流基础架构，特别是它是生成式 AI 模型的核心架构。

Ilya 不仅推荐原论文，还推荐一篇由康奈尔大学副教授 Alexander Rush 等研究者在 2018 年撰写的博客文章 ——《The Annotated Transformer》。这篇文章以逐行实现的形式呈现了论文的注释版本，它重新排序梳理了原论文的内容，并删除了一些部分，最终展现的是一个完全可用的实现。2022 年 Austin Huang 等研究者又在其基础上编辑整理出一份采用 PyTorch 实现的更新版博客。

在 RNN 方面，Ilya 首先推荐阅读 AI 大牛 Andrej Karpathy2015 年撰写的一篇博客，强调「RNN 惊人的有效性」。

Ilya 还推荐了由纽约大学 Wojciech Zaremba（OpenAI创始团队成员）和 Ilya Sutskever 本人 2015 年发表的论文《Recurrent Neural Network Regularization》。当时，Ilya 还是谷歌大脑的研究科学家。

这篇论文为 RNN 提出了一种简单的正则化技术，阐述了如何正确地将 dropout 应用于 LSTM，大大减少了各种任务的过拟合，包括语言建模、语音识别、图像字幕生成、机器翻译等等。

此外，Ilya 还推荐了 DeepMind、伦敦大学学院 2018 年联合发表的论文《Relational recurrent neural networks》。

在 LSTM 方面，Ilya 推荐了 Anthropic 联合创始人、前 OpenAI 可解释性团队技术负责人 Christopher Olah 2015 年撰写的博客文章《Understanding LSTM Networks》，这篇文章全面细致地讲解了 LSTM 的基本知识，并阐明 RNN 取得的显著成果本质上是依靠 LSTM 实现的。

在「复杂度」方面，Ilya 重点推荐了《Kolmogorov Complexity and Algorithmic Randomness》一书中讲解「算法统计」的部分。柯尔莫哥洛夫复杂度为计算理论提供了一个用于探索问题固有复杂度的框架，可帮助研究人员更好地设计和评估 AI 模型。

在这份推荐清单中，我们还看到了一些著名 AI 学者的经典论文。例如，2012 年 ImageNet 图像识别大赛中图灵奖得主 Geoffrey Hinton 组的论文《ImageNet Classification with Deep Convolutional Neural Networks》，这篇论文提出了 AlexNet，引入了全新的深层结构和 dropout 方法，颠覆了图像识别领域，甚至被认为开启了深度学习革命。Ilya 也是这篇论文的三位作者之一。

还有 2014 年，DeepMind Alex Graves 等人提出的神经图灵机（NTM）。NTM 将神经网络的模糊模式匹配能力与可编程计算机的算法能力相结合，具有 LSTM 网络控制器的 NTM 可以从输入和输出示例中推断出简单的算法，例如复制，排序等。

此外，Ilya 还推荐了神经网络应用于基础科学（化学）的研究论文、扩展定律相关文章等等，并推荐了斯坦福大学计算机科学课程 CS231n：用于视觉识别的卷积神经网络。

感兴趣的读者可以查看原推荐清单，了解更多内容。

^{参考链接：https://twitter.com/keshavchan/status/1787861946173186062}

入门机器学习OpenAI

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

神经图灵机技术

神经图灵机（NTMs）是Alex Graves等人发表的一种递归神经网络模型。NTM将神经网络的模糊模式匹配能力与可编程计算机的算法能力相结合。一个NTM有一个神经网络控制器连接到外部存储器资源，通过注意机制与外部存储器资源进行交互。记忆交互是端对端可区分的，可以使用梯度下降对其进行优化。具有长期短期记忆（LSTM）网络控制器的NTM可以从输入和输出示例推断简单的算法，例如复制，排序和关联回忆。

来源：Graves, A., Wayne, G., & Danihelka, I. (2014). Neural turing machines. arXiv preprint arXiv:1410.5401.

模式匹配技术

在计算机科学中，模式匹配就是检查特定序列的标记是否存在某种模式的组成部分。与模式识别相比，匹配通常必须是精确的。模式通常具有序列或树结构的形式。模式匹配的使用包括输出令牌序列内的模式的位置（如果有的话），输出匹配模式的某个分量，以及用另一个令牌序列（即搜索和替换）替换匹配模式。

来源：Wikipedia

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

来源：Wikipedia

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题（vanishing gradient problem over backpropagation-through-time)，重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳，是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能，LSTM经常被用在具有时间序列特性的数据和场景中。

来源：Hochreiter, Sepp & Schmidhuber, Jürgen. (1997). Long Short-term Memory. Neural computation. 9. 1735-80. 10.1162/neco.1997.9.8.1735.