2016/11/27 15:26

专访谷歌Jeff Dean：强化学习适合的任务与产品化应用

最近在接受 Fortune 杂志采访时，Google Brain领导 Jeff Dean 谈到了最前沿的人工智能的研究、其中的挑战和人工智能在产品当中的应用。

下次你在 Google 搜索引擎中输入问题或者使用谷歌地图服务以获取前往电影院的路线时，请记住，这些服务的背后有一个大脑在为你提供相关搜索结果，并确保你在驾驶的时候不会迷路。

实际上，它并非一个真正的大脑，而是谷歌大脑研究团队（Google Brain research team）。正如 Fortune 杂志的 Roger Parloff 写的，过去几年中，Google Brain 研究小组已经创造了超过 1000 个所谓的深度学习项目，催生了许多 Google 的产品，比如 YouTube，翻译（translation）和照片（photos）。通过深度学习，研究人员可以将大量数据输入到称为神经网络的软件系统当中，这些软件系统可以比人类更快地学习识别大量信息当中的模式。

问：研究人员在推动人工智能领域时面临的挑战是什么？

Jeff：很多人类的学习是来自无监督的学习方式，在这个过程中，你只是观察周围的世界并理解事物是如何运作的。这是一个非常活跃的机器学习研究领域。但是它还未达到监督学习能解决任务的那个程度。

问：所以无监督的学习指的是如何从观察和感知当中学习的，如果计算机可以自己进行观察和感知，这是否可以帮助解决更复杂的问题？

Jeff：的确，人类的视觉主要通过无监督的学习来获得训练。当你是一个小孩子的时候，你观察这个世界，但是偶尔有人说，「这是一只长劲鹿」或者「这是一辆车」的时候，你会得到一个监督的信号。这是你对世界天生的心理模型在回应你获得的少量的监督数据。

我们需要更多地结合使用监督学习和非监督学习。就我们的大多数机器学习的系统的工作方式而言，我们还没有真正的到达那一步。

问：你是否解释一下强化学习这种人工智能技术？

Jeff：强化学习背后的想法是，你未必需要清楚你要采取的行动。所以你可以先做出一个你认为不错行动，然后观察周围世界会有怎样的反应，这是一种探索行动序列的方式。就像是棋盘游戏一样，你可以根据你对手的行动来进行反应。最后，在整个一系列的行动之后，你得到了一些反馈信号。

强化学习的思想是，在你得到反馈信号的同时能将信用或责任分配到你所采取的所有行动。它在今天的某些领域非常有效。

我认为，当你所处的行动状态非常宽泛时，此时使用强化学习会就会有一些挑战。现实世界中存在的人可以在任何时刻采取的范围异常宽泛的行动。但是在棋盘游戏当中，你走的每一步棋都是限定在一定范围内的，游戏规则会有点限制并且回馈信号也会清楚得多。你要么赢，要么输。

如果我的目标是做一杯咖啡或者什么别的东西，我也许想要采取一大堆的动作，那么这个回馈信号就不会那么清晰。

但是仍然可以分解这些步骤，不是吗？举个例子，当你在做一杯咖啡的时候，你就会学习到如果没有在豆子被冲泡之前将他们完全碾碎—这就会做出来一杯糟糕的咖啡。

没错，我认为增强学习的一个本质就是它往往需要探索。因此，在物理系统的环境当中使用它有点困难。我们开始尝试将它应用在机器人当中。当机器人必须实际采取一些行动时，它会被限制在一个指定的日子中只可以采取有限数量的动作集中的动作。

问：Google 是否将强化学习应用在核心的搜索产品当中？

Jeff：我们主要通过 DeepMind [the AI startup Google bought in 2014] 和我们的数据中心操作人员之间的合作来将强化学习应用在核心产品中。他们使用强化学习来设置数据中心内的空调旋钮，并实现相同的，安全的冷却操作和操作条件，大幅降低能耗。他们能够探索哪些旋钮的设置能起作用，以及当你以不同的方式转动旋钮时，它们会如何反应。

通过强化学习，他们可以发现这 18 个旋钮的设置，或者还有很多多旋钮并未被操作人员考虑进去。了解这个系统的人会这样说，「哦，这真是一个奇怪的系统，」但是事实证明，它们的工作的相当不错。

问：强化学习用于那种任务更为合适？

Jeff：在上述例子中，数据中心运行良好因为你一次可以执行的操作不多。这有 18 个旋钮，你在那里可以上下旋转它们。结果是可以测量出来的。假设你在适当的可接受的温度范围内工作，你就会得到一个让能耗降低的反馈操作。从这个角度看，这几乎是一个理想的强化学习的问题。

一个更加棘手的强化学习的例子是试图用它来决定我该显示什么样的搜索结果。这有一个更加广泛的搜索结果集，我可以展示出对于不同查询的反应，并且回馈信号有一点嘈杂。就像是用户在看着一个搜索结果，喜欢和不喜欢都不是那么明显。

问：你如何衡量他们不喜欢某一个结果？

Jeff：是的，这的确是一个棘手的问题。举个例子，强化学习可能还不够成熟，以至于在这些极度无约束的环境中，回馈信号还不是那么明显。

问：在将研究成果应用于人们每天使用的实际产品时，有哪些比较大的挑战？

Jeff：其中一个就是，很多机器学习问题的解决方案和我们对这些解决方案的研究可以在不同的领域中重复使用。例如，我们与地图团队合作了一些研究。他们想要读取出现在街头的所有商业名称和标志来更好的了解世界，比如确定这个东西是披萨店还是别的什么。

事实证明，为了在这些图像中找到文本，你可以训练一个机器学习模型，给它一些样本数据，比如人们在文本周围绘制圆圈或者方框。实际上，你可以用它来训练模型去检测图像中的哪些像素包含文本。

这是一个普遍适用的功能，Map 团队中的不同部门可以重复使用以上模型来完成卫星图像分析任务，比如在美国境内或者世界范围内找到一个屋顶或者估计在屋顶上的太阳能电池板的安装位置。

然后我们发现，同样类型的模型可以帮助我们解决医学成像的初步工作。现在，你有了医学的图像，并且你在尝试找到这些与临床相关的图像的有趣部分。

理论人工智能谷歌Jeff Dean谷歌大脑访谈