Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Xavier Amatriain作者路、张倩编译Quora选自

AI领域为何缺乏突破?前Quora工程VP:Hinton没有说到点子上

2018 年还剩 7 天!前 Netflix 研究/工程负责人、Quora 工程 VP,现人工智能创业公司 Curai 联合创始人&CTO Xavier Amatriain 回顾了这一年的机器学习人工智能进展。让我们来看看他的观点。

如果非要用几行字总结 2018 年机器学习领域的亮点,那么我会用以下四条来总结:

  • AI 炒作和散播 AI 恐惧降温

  • 更加关注具体问题,如公平性、可解释性或因果关系

  • 深度学习图像分类以外的实践也很有用(尤其是 NLP)

  • AI 框架之争逐渐白热化。如果你想在该领域功成名就,最好先发布自己的框架。

接下来我们来看一下具体内容。

AI 炒作和散播 AI 恐惧降温

2017 年可能是散播 AI 恐惧和 AI 炒作的一年,而 2018 年这些「宣传」开始降温。尽管一些大人物继续发表关于 AI 恐惧的言论,但他们或许太忙了,没把这件事当作日程重点。同时,媒体等群体在对待这个问题时似乎变得较为平静,尽管自动驾驶汽车和类似的技术不断发展,但不会立刻成真。也就是说,仍然有声音在抵抗「约束 AI 而不是约束 AI 产出」的糟糕主意。

更加关注具体问题

过去这一年,人们的关注点似乎转移到可以解决的更具体问题。例如,关于公平性的讨论增多,不止很多学术会议在谈论这个话题,一些在线课程(如谷歌开发的课程)也在讨论公平性。

这一年,可解释性、解释(explanation)、因果关系等问题也得到了广泛讨论。因果关系似乎重新引起了大家的注意,这主要是因为 Judea Pearl 著作《The Book of Why》的问世。Judea Pearl 不仅决定写下自己的第一本「通俗」读物,他还在 Twitter 上鼓励大家讨论因果关系。实际上,即使最通俗的媒体也把因果关系描述为现有 AI 技术的「挑战」,甚至 ACM Recommender Systems Conference 的最佳论文就在讲如何在嵌入中纳入因果关系(《Causal Embeddings for Recommendations》)。也就是说,很多作者认为因果关系某种程度上是一种理论偏移,我们应该重新关注更具体的问题,如可解释性或解释。说到解释,这方面的一大亮点是 Anchor 论文和代码的发布(Anchors: High-Precision Model-Agnostic Explanations),这是著名的 LIME 模型作者的后续之作。

深度学习图像分类以外的实践也很有用

尽管深度学习作为最通用的 AI 范式仍然存在很多问题,尽管 Yann LeCun 和 Gary Marcus 就此辩论了 n 次,但是我们可以确定的是深度学习不止于此,从可以提供的能量来看,它离到达平台期还很远。具体来说,这一年深度学习方法在视觉以外的其他领域取得了空前成功,包括语言、医疗等。

今年最有趣的进展实际上出现在 NLP 领域。如果非要我选择今年印象最深刻的 AI 应用,那么我选择的两个都是关于 NLP 的(而且都来自谷歌)。第一个是 Smart Compose,第二个是 Duplex 对话系统

NLP 的大量进展受到使用语言模型这一思路的启发,ULMFiT 使大家了解到语言模型的力量(参见:NLP 领域的 ImageNet 时代到来:词嵌入「已死」,语言模型当立)。我们看到很多其他(以及改进版)方法,如 Allen 的 ELMO、Open AI 的 transformer 和谷歌近期提出的 BERT。这些模型被描述为「NLP 的 Imagenet 时刻」,因为它们提供了即用的预训练通用模型,可在用于特定任务时再进行微调。除了语言模型以外,还有很多有趣进展,如 Facebook 的多语言嵌入系统。我们看到这些方法很快被整合到更通用的 NLP 框架,如 AllenNLP 或 Zalando 的 FLAIR 框架。

AI 框架之争

在框架方面,2018 年,「AI 框架之战」白热化。令人惊讶的是,Pytorch 似乎追赶上 TensorFlow。尽管将 Pytorch 用于生产环境仍然是次优的,但 Pytorch 在这方面的追赶速度超过 TensorFlow在易用性、文档和教育方面的追赶速度。有趣的是,选择 Pytorch 框架来实现 Fast.ai 库可能发挥了很大助力。不过,谷歌意识到这些,并走在正确的方向上,如将 Keras 集成到 TensorFlow 中、聘用具备开发者背景的管理者 Paige Bailey。不管怎样,我们都从这些很棒的框架中获益良多。

在框架空间中取得很多有趣进展的另一个领域是强化学习。虽然我觉得 RL 研究进展不像前几年那样令人印象深刻(只能想起来 DeepMind 的近期研究 IMPALA),但在仅仅一年的时间里看到所有主流 AI 玩家发布 RL 框架还是非常惊喜的。谷歌发布了 Dopamine 研究框架,Deepmind 发布了颇有竞争力的 TRFL 框架。Facebook 不甘落后,发布了 Horizon微软也发布了专门用于训练基于文本的智能体的 TextWorld。希望这些开源福利可以帮助我们在 2019 年取得更多 RL 进展。

谷歌最近发布了基于 TensorFlow 的 TFRank。排序是 ML 应用中极其重要的一个应用方向,应该得到更多应有的重视。

基础性突破

深度学习似乎已经消除了对数据的精细要求,但事实并非如此。在提高数据质量方面的研究仍然有非常有趣的进展。例如,尽管数据增强之前就被提出,对很多 DL 应用都很重要,但今年谷歌发布了一种可自动增强训练数据的深度强化学习方法——auto-augment。一种更加极端的想法是用合成数据训练 DL 模型。这方面的实践已经有了一些,许多人将其看做 AI 未来的关键所在。英伟达在其论文《Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization》中展示了有趣的新想法。在《Learning from the experts: From expert systems to machine-learned diagnosis models》中,我们还展示了如何使用专家系统生成可用于训练 DL 系统的合成数据,这些数据甚至可在与现实世界数据相结合后用于 DL 系统训练。最后,利用「弱监督」减少大量手工标注数据需求的方法也很值得一提。Snorkel 就是一项有趣的项目,旨在通过提供一个通用框架改进弱监督方法。

要说 AI 领域还有什么基础性突破,我看到的并不多。我并不完全赞同 Hinton 的观点,他认为 AI 领域缺乏创新是因为这一领域的研究者「年轻人多,资深者少」,尽管必须承认,年纪较大的人比较容易取得研究突破。在我看来,缺乏突破的主要原因在于,现有方法及其变体还有很多有趣而实用的应用,因此研究者不愿去冒险尝试现在看来并不实用的方法。这一领域的大部分研究都是由大公司资助的,因此这点更加明显。一篇有趣的论文《An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling》确实挑战了一些假设。尽管这份研究是高度经验性的,使用的也是已知的方法,但它打开了发现新方法的大门,证明公认的最佳方法实际上并不是最佳的。另一篇具有探索意义的论文是 NeurIPS 最佳论文《Neural Ordinary Differential Equations》,它挑战了 DL 中的一些基本内容,包括层本身的概念。

原文链接:https://www.quora.com/What-were-the-most-significant-machine-learning-AI-advances-in-2018/answer/Xavier-Amatriain?ch=2&srid=cgo

入门行业趋势盘点
1
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~