Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

十年内出现AGI?下一代Gemini能感知环境?DeepMind CEO哈萨比斯畅谈AI

智能本质、对齐、Gemini、超人类AI和多模态、AGI……在这场干货满满的访谈中,Demis Hassabis可谓「知无不言、言无不尽」。

「如果我们在未来十年内拥有类似 AGI 的系统,我不会感到惊讶。」Google DeepMind 联合创始人和 CEO Demis Hassabis 近日在人工智能播客节目 Dwarkesh Podcast 上如是说。

在长达一个小时的节目中,Hassabis 分享了自己对智能本质、强化学习、规模扩展和对齐、AGI、多模态等主题的看法。机器之心选择性地整理了其中的主要内容并进行了适当编辑以便阅读。

图片

智能的本质

Dwarkesh Patel:第一个问题:您有神经科学背景,那么您是怎么看待智能的?

Demis Hassabis:这个问题很有趣。智能非常宽泛,可普遍用于各种用途。我认为这说明对于大脑处理我们周围世界的方式,必然存在某种高层级的共同之处,算法层面的共同之处。当然,大脑中有做特定事情的特定部分,但我认为所有这些事情下面可能有一些基本原则作为支撑。

Dwarkesh Patel:您怎么看待这一事实:对于现在的 LLM,当你向其提供大量特定领域的数据时,它们往往会在那个领域变得格外地好?难道不能在所有不同领域上实现普遍提升吗?

Demis Hassabis:首先,我认为当在某个领域内获得提升时,有时候也会在其它领域获得出人意料的提升。举个例子,当这些大模型的编程能力提升时,它们的一般推理能力实际上也能得到提升。所以现在是有一定的迁移学习的证据。而且这也是人脑学习的方式。如果我们大量经历或练习象棋或写作等事项,我们就会越来越擅长对应的事情,即便我们是使用某种通用学习技术和通用学习系统来学习某个特定的领域。

Dwarkesh Patel:以语言和编程为例,在神经网络中,是否存在某种地方存在某种机制让模型的语言和编程能力一起提升? 

Demis Hassabis:我们目前的分析技术还不足以确定这一点。实际上,对于这些系统构建的表征的机制分析,还有待大量研究。我有时候把这称为虚拟脑分析(virtual brain analytics)。从某个方面看,这有点像是 fMRI,或者记录真实大脑中单个细胞的活动。对于这类分析技术,可以怎样将其类比到人造心智呢?这方面有很多出色的研究成果。比如 Chris Olah 就在研究这个,我很喜欢他的研究。有很多计算神经科学的技术可以引入过来分析我们目前正在构建的这些系统。事实上,我也在努力鼓励我在计算神经科学领域的朋友思考这个方向,应用他们的所学来理解大型模型。

Dwarkesh Patel:由于您有神经科学背景,您多半了解一些其他 AI 研究者不太了解的有关人类智能的知识。这方面的知识有哪些?

Demis Hassabis:神经科学的助益很大。看看过去一二十年的研究就能知道。事实上我已经思考这些三十多年了。在这新的一轮 AI 浪潮早期,神经科学提供了大量有趣的引导性线索。于是出现了强化学习以及深度学习等技术。我们在这方面也有一些开创性的研究成果,比如经历重放(experience replay)以及已经变得非常重要的注意力(attention)概念。很多这些成果的初始灵感都是来自对大脑工作方式的理解,当然它们并不完全一样。一种是工程开发出的系统,另一种是自然的系统。它们并不是某种算法的一对一映射,而更像是某种指示方向的灵感——或许是某种架构思想,或者算法思想或表征思想。毕竟大脑本身就是通用智能存在的证据。人类就是这样的,一旦知道某件事是可能的,就更容易朝那个方向努力,因为你知道这就是一个努力进取直到某时取得成功的问题,而不是能否成功的问题。这能让人更快地取得进展。

我认为在如今成功的背后,神经科学启迪了很多人的思考,至少是间接的。至于未来,我认为在规划方面还有很多有趣的问题有待解决。还有大脑是以何种方式构建出了正确的世界模型?举个例子,我研究过大脑是如何进行想象的,你也可以将这看作是心智模拟。我们就会问:为了执行更好的规划,我们是以怎样的方式创建了对于世界的非常丰富的视觉空间模拟?

LLM 之上的强化学习

Dwarkesh Patel:LLM 能否具备这种类似树搜索的能力?您对此怎么看?

Demis Hassabis:我认为这是一个非常有潜力的研究方向。我们在持续不断地提升大型模型,让它们成为越来越准确的世界预测器。在效果上,就是让它们成为越来越可靠的世界模型。这明显是必要的,但我认为这可能并不是 AGI 系统的充分条件。在这之外,我们还在研究 AlphaZero 这样的规划机制——其可使用模型执行明确的规划,从而在世界中实现特定的目标。另外可能还会搭配某种链式思维或推理路径,也可能使用搜索来探索巨大的可能性空间。我认为这是我们当前的大模型所缺少的能力。

Dwarkesh Patel:对于这些方法所需的巨量算力,您会怎么获得?您认为这方面的效率会怎么得到提升?

Demis Hassabis:首先,摩尔定律会帮助我们。每一年,计算能力都在提升;但我们更关注样本高效型的方法以及复用已有的数据,比如经历重放。世界模型越好,搜索效率就越高。举个例子,AlphaGo 的搜索效率就远高于使用暴力搜索的深蓝(Deep Blue)。深蓝的每一次决策可能需要查看数百万种可能下法。AlphaGo 则只需要大约数万次就能决定下一步。但人类的大师级棋手可能只需检查几百种下法就能得到一个非常好的下一步决策结果。这明显说明,暴力搜索系统对这些棋并没有真正的模型。AlphaGo 有相当不错的模型,而顶级人类棋手拥有更丰富、更准确的围棋或国际象棋模型。这让他们只需少量搜索就能做出世界级的决策。

Dwarkesh Patel:但是 AlphaGo 胜过了人类冠军。

Demis Hassabis:当然,所以我们做出了开创性的成果,DeepMind 也因此出名。我们使用游戏作为验证平台,因为很显然在游戏中的搜索效率更高。另外,在游戏中也更容易设定奖励函数——不管是获胜还是赢取分数。这些是大多数游戏内置的奖励机制。但对于真实世界系统,这却非常困难——该如何定义正确的目标函数、正确的奖励函数和正确的目标?

Dwarkesh Patel:人类智能有很高的样本效率,它与 AlphaGo 这些系统得到解答的方式有何不同?比如爱因斯坦如何想出了相对论?

Demis Hassabis:它们大不相同,因为我们的大脑并不会执行蒙特卡洛树搜索。这不是我们的有机大脑的工作方式。为了弥补这一点,人类的大脑会用到直觉。人类会使用自己的知识和经历来构建非常准确的模型,比如爱因斯坦构建了非常准确的物理模型。如果你阅读一下爱因斯坦的经历,看看他是如何想出那些理论的,你会发现他习惯视觉化地思考那些物理系统,而不只是通过数学公式。这让他有了对这些物理系统的非常直觉化的感知。这让他产生了在当时显得非常离奇的想法。

我认为这就是我们构建的世界模型的复杂精妙之处。想象一下,如果你的世界模型能让你抵达你正在搜索的某个树的某个节点,然后你就只需要在这个节点附近搜索即可。这样一来,你的搜索量就少多了。

Dwarkesh Patel:现在还有一个问题有待解决:强化学习能否让模型使用自我博弈合成数据来克服数据瓶颈问题?您似乎对此很乐观。

Demis Hassabis:是的,我对此非常乐观。首先,仍然还有大量数据可以使用,尤其是多模态和视频等数据。而且显然,社会也在一直不断增加更多数据。但我认为创造合成数据方面也有很大的发展空间。这方面有一些不同的方法,比如模拟和自我博弈,模拟方法包括使用非常仿真的游戏环境来生成接近真实的数据。而自我博弈则是让模型互相交互或交谈。这种方法在我们开发 AlphaGo 和 AlphaZero 时效果非常好。

Dwarkesh Patel:那么该如何确保合成的数据不是来自模型的数据集,而是新数据?

Demis Hassabis:我认为这需要一门完整的学科来进行研究。在这方面,我们仍处于数据管理数据分析的初级阶段。比如通过分析数据分布,能找到分布中的漏洞,这对于公平与偏见等议题来说非常重要。要将其移出系统,就需要确保数据集能够代表你想要学习的分布。对此人们有一些可以使用的技巧,比如增大数据中特定部分的权重或重放这部分数据。也可以想象,如果你发现你的数据集中有如此漏洞,你可以使用生成的数据来进行填补。

Dwarkesh Patel:现在人们很关注强化学习,但其实 DeepMind 很多年前就研究过了。是否还有类似这样的研究方向——早已经出现了,但还没有引起人们重视?

Demis Hassabis:事实上,过去几十年来这种事情一直在发生。新旧思想结合起来就有巨大潜力,比如过去的一些想法与更大规模模型和大型多模态模型结合起来也许就能得到激动人心的结果。

Dwarkesh Patel:强化学习、LLM、树搜索,哪种方法有潜力催生出 AGI?

Demis Hassabis:从理论上看,我认为纯 AlphaZero 式的方法没理由不成功。Google DeepMind 和社区一些人正在研究在假设完全没有先验知识、没有数据的前提下,从头开始构建所有知识。我认为这是有价值的,因为这些想法和算法在有一定知识时也能使用。

话虽如此,但目前来说我认为最可能最快实现 AGI 的方法是使用目前世界上已有的知识,比如网络上的和我们收集的知识。而且我们还有 Transformer 等有能力消化这些信息的可大规模扩展的算法。你可以将一个模型用作某种形式的先验,基于其上进行构建并执行预测,以此启动 AGI 学习。没理由不这样做。我猜想,在最终的 AGI 系统中,大型多模态模型会成为整体解决方案的一部分,但它们本身并不足以成为 AGI。它们还需要额外的规划搜索能力。

扩展与对齐

Dwarkesh Patel:现在有个规模扩展假设(scaling hypothesis)。有人猜想,只要扩大模型和数据分布的规模,智能终会出现,您认同吗?

Demis Hassabis:我认为这是一个需要实验检验的问题。几乎所有人(包括那些最早开始研究规模扩展假设的人)都很惊讶规模扩展所带来的成就。看看现如今的大模型,它们的效果好得简直不合理!大模型涌现出的一些性质相当出人意料;在我看来,大模型是有某种形式的概念和抽象能力。要是回到五年以前,我会说要做到这一点,我们可能还需要另一种算法方面的突破。也许更类似大脑的工作方式。我认为,如果我们想要明确的、简洁的抽象概念,我们依然需要更加理解大脑,但这些系统似乎可以隐式地学习它们。

另一个出人意料的有趣结果是这些系统获得了某种形式的现实基础知识(grounding/定基),即便它们并未体验过世界的多模态——至少在近期的多模态模型出现之前没有。只是靠语言就能构建起如此大量的信息和模型,着实让人惊讶。对此的原因,我有一些假设。我认为大型语言模型能通过 RLHF 反馈系统获得一些现实基础知识,因为人类反馈者本身就是生活在现实中的人。我们就立足于现实世界中。所以我们的反馈也是立足于现实的。因此这能让模型获得一些现实基础。另外,也许语言中就包含了更多的现实基础,如果你能完全洞悉语言,也许能发现我们之前可能没考虑到的东西,甚至可能已经有语言学家研究过这些方面。这实际上是一个非常有趣的哲学问题。人们甚至可能都尚未触及其表面。看看过去的进展,畅想未来是非常有趣的。

对于你说的规模扩展问题,我认为我们应当尽可能地扩大规模,我们也正在这么做。至于最后会趋近一条渐近线还是撞上铁墙,这是个实验问题,不同的人会有不同的意见。但我认为我们应该直接去测试。没人能想出答案。但与此同时,我们也应该加倍投资创新和发明。这是谷歌研究院、DeepMind 和谷歌大脑的做法,我们在过去十年中开创性地取得了许多成果。这就是我们的生存之道,

可以说,我们一半的努力是在扩展规模,另一半则是在研发未来的架构和算法——它们或许是在模型变得越来越大之后所需的。我大概猜想,未来这两方面都需要。所以我们要两方面都尽可能地发力。我们很幸运,因为我们确实能做到这一点。

Dwarkesh Patel:再多聊聊定基(grounding)。可以想象,有两件事会让定基变得更加困难。一是随着模型变得更加聪明,它们就能在我们无法生成足够人类标签的领域工作——因为我们不够聪明。而是关于计算。目前我们做的都是下一 token 预测。这就像是一个护轨,限制模型让其像人类一样谈话,像人类一样思考。现在,如果额外的计算是以强化学习形式出现的呢——我们只知道达成了目标但无法追踪是如何达成的?如果这两者组合起来,定基会出现什么问题?

Demis Hassabis:我认为如果系统没有适当地定基,系统就无法适当地实现这些目标。我认为在某种程度上系统应该有定基,至少要有一些,这样才能在真实世界中真正实现目标。随着 Gemini 这样的系统变得更加多模态,可以在文本数据之外处理视频、音频和视觉数据,这些系统就会开始将这些东西融合到一起。我认为这其实就是一种形式的定基。这样系统就会开始更好地理解真实世界的物理机制。

Dwarkesh Patel:为了对齐比人类更聪明的系统,应该怎么做?

Demis Hassabis:我和 Shane(注:Shane LeggDeepMind 联合创始人,现担任该公司首席 AGI 科学家)还有其他许多人在我们创立 DeepMind 之前就已经在考虑这个问题了,因为我们计划着取得成功。2010 年时,还没什么人研究 AI,更别说 AGI 了。但我们那时就知道,如果我们能通过这些系统和思想取得成功,创造出的技术将会具有让人难以置信的变革力量。所以我们 20 年前就在思考了,这样会有什么正面和负面的后果。正面的后果就是惊人的科学成果,比如 AlphaFold、科学和数学领域的科学发现。同时我们也需要确保这些系统是可理解的和可控的。

为了得到经过更为严格评估的系统,人们提出了很多想法。但我们目前还没有足够好的评估方法和基准可以确定系统是否欺骗了你、系统是否会泄漏自己的代码等不良行为。还有些人提出可以使用 AI 来辅助分析,就是使用应用范围窄的 AI(narrow AI)。它们不具备通用学习能力,而是专门为某个特定领域专门设计的;它们可以帮助人类科学家分析更通用的系统的行为。我认为一个有很大潜力的方向是创造强化型沙盒或模拟环境——它们的网络安全经过增强,可以把 AI 困在其中,也能保证外部攻击者无法进入。这样一来,我们就可以在这个沙盒中自由地做实验了。另外也有些人在研究让人类能够理解这些系统构建的概念和表征。

时间线和智能爆炸

Dwarkesh Patel:您认为 AGI 会在什么时候出现?

Demis Hassabis:我没有具体的时间预测,因为我感觉还有很多未知和不确定,而且人类的聪明才智和努力总是会带来惊喜。这些都可能导致时间线变化。但我要说,在我们 2010 年创立 DeepMind 时,我们认为这个项目需要 20 年时间。实际上,我觉得我们正按预期向目标靠近。这很了不起,因为通常的 20 年计划总是还要另外 20 年。如果我们在未来十年内拥有类似 AGI 的系统,我不会感到惊讶。

Dwarkesh Patel:如果有了 AGI,您会使用吗?您可以将其用来进一步加速 AI 研究。

Demis Hassabis:我认为这是有可能的。这要看我们做出什么决定。我们需要作为一个社会来决定如何使用第一个新生的 AGI 系统或甚至 AGI 原型系统。即便是我们现有的系统,我们也需要考虑其安全方面的影响。

Gemini 的训练

Dwarkesh Patel:目前 Gemini 的开发遇到了什么瓶颈?既然规模扩展法效果很好,为什么不直接把它增大一个数量级?

Demis Hassabis:首先,有实践方面的限制。一个数据中心究竟能有多少算力呢?实际上,这会遇到非常有趣的分布式计算难题。幸运的是,我们有最好的研究者在研究这些难题以及如何实现跨数据中心训练等等。还有硬件方面的难题,我们有自己构建和设计的 TPU 等硬件,也会使用 GPU。至于规模扩展的效果,也不是总如魔法般有效。扩大规模时也还需要扩展超参数,每一种规模都需要各种不同的创新。不是每一种规模都能重复一样的配方。我们必须调整配方,而且这在某种程度上就像是搞艺术。另外还需要获得新的数据点。

Dwarkesh Patel:在 Gemini 的开发过程中,您觉得最出人意料的是什么?

Demis Hassabis:我得说没什么非常出人意料,但是能在那种规模上进行训练并从一种组织化的角度去研究它,是非常有趣的。

Dwarkesh Patel:很多人认为其它实验室的模型的计算效率可能比 DeepMind 的 Gemini 高。您怎么看?

Demis Hassabis:我认为情况并非如此。实际上,Gemini 使用的算力差不多,也许就比传闻中 GPT-4 使用的算力稍多一点。

Dwarkesh Patel:对于 2010 年刚创立 DeepMind 的您来说,现在的 AI 进展中哪一点最让您感到意外?

Demis Hassabis:你也采访过我的同事 Shane。他总是从计算曲线方面进行思考,也常常将 AI 与大脑进行比较——有多少神经元或突触。但现在我们已经差不多到大脑中神经突触数量的数量级和那样的计算量了。

但我认为,更根本的问题在于,我们关注的重心始终是通用性和学习。这始终是我们使用任何技术的核心。因此我们把强化学习、搜索和深度学习看作是三种可以扩展并且可以非常通用的算法,无需大量人工设计的人类先验知识。这不同于 MIT 等在当时构建的 AI——它们是基于逻辑专家系统,需要大量人工编码。事实证明这种做法是错误的。我们在早期看出了发展趋势。我们使用游戏作为验证平台,发现结果还不错。最后也取得了巨大的成功。AlphaGo 等成功给其他许多人带去了启发。当然,还有我们谷歌研究院和谷歌大脑的同事发明的 Transformer,这种深度学习方法让模型可以处理海量数据。这些技术就是如今成果的基础。这些都是一以贯之的传承。我们当然不可能预测出每一次技术转变,但我认为我们前进的总体方向是正确的。

治理超人类 AI

Dwarkesh Patel:您怎么看待超人类智能的前景?它仍然受私有企业控制吗?具体应该如何治理它?

Demis Hassabis:我认为这种技术将会带来重大影响。大于任何一家公司,甚至大于任何一个行业。我认为这必需来自民间社会、学术界、政府的许多利益相关者的大规模合作。好消息是,随着近期聊天机器人等技术的广泛使用,社会中其它一些部分被唤醒了,他们开始认识到这种系统正在到来并且他们也将与这些系统互动。这很不错。这为良好的对话打开了很多大门。

其中一个例子是几个月前在英国举办的 AI Safety Summit。我认为这是一次巨大成功。我们需要进行国际间的对话,要让整个社会一起来决定我们要使用这些模型做什么、我们希望怎样使用它们、我们希望它们不被用于什么目的。

Dwarkesh Patel:现在的 AI 系统已经非常强大,为什么它们的影响没有更大呢?

Demis Hassabis:这说明我们依然还处在这个新时代的起点。目前的这些系统已经有一些有趣的用例,比如使用聊天机器人系统来为你做总结、完成一些简单的写作任务、进行样板式写作;但这些只是我们日常生活的一小部分。

我认为,对于更一般化的用例,我们仍然需要新的能力,比如规划和搜索,另外还需要个性化、记忆、情境记忆等。因此长上下文窗口是不够的,还要记住 100 轮对话之前我们说了什么。一旦这些技术成熟了,我们就会看到新的用例,比如能帮助我们找到更好更丰富材料(书、电影、音乐等)的新推荐系统。那样我就会每天使用这类系统。我认为我们目前只是触及了这些 AI 助理的表面,其实未来它们能为我们的一般日常生活和工作做更多事情。另外用它们做科研也不足够可靠。但我相信未来当我们决定了事实性和定基等问题之后,这些 AI 系统就能变成世界上最好的研究助理。

Dwarkesh Patel:说到记忆,您在 2007 年有一篇论文谈到记忆和想象(imagination)有某种程度的相似之处。现在也有人说目前的 AI 就只是记住了些东西。您对此怎么看?只靠记忆就足够了吗?

Demis Hassabis:在有限的情况下,也许记住一切就够了,但这样无法泛化到原有的分布之外。但很明显 Gemini 和 GPT-4 等模型确实能够泛化到新的情况。至于我的那篇论文,我实际上表达的是:记忆(至少是人类记忆)是一种重建的过程。记忆不是磁带式的精确记录。我们的大脑是把看起来熟悉的东西组合到一起。这让我思考想象可能也是这么回事。只不过这时候我们组合的是语义组件(semantic component)——你的大脑将它们组合起来并且认为结果是全新的。我认为我们目前的系统依然缺少这种能力——即把世界模型的不同部分拿出来组合到一起来模拟新东西,从而帮助用来执行规划。这就是我所说的想象。

安全、开源和权重安全

Dwarkesh Patel:你们有计划和其它两家主要的 AI 实验室一样从某种程度上放出 Gemini 的框架吗?

Demis Hassabis:是的,我们内部已经做了大量的检查和平衡,我们也会开始发布一些东西。未来几个月,我们有很多博客文章和技术论文发出来。

Dwarkesh Patel:如何保护模型的权重,使其不被恶意盗用?

Demis Hassabis:这涉及到两个方面。一是安全,二是开源。安全非常关键,尤其是网络安全。我们 Google DeepMind 非常幸运。因为我们在谷歌的防火墙和云的保护之下,这可以说是世界上最好的安全防护。除此之外,我们 DeepMind 还有特定的措施来保护我们的代码库。所以我们有双重保护。而且我们还在不断提升和改进,比如使用强化沙盒。我们也在考虑特定的安全数据中心或硬件解决方案。所有的前沿实验室都应该这么做。

开源也很重要。我们是开源和开放科学的大力支持者。我们已经发布了数千篇论文,包括 AlphaFold、Transformer 和 AlphaGo。但对于核心的基础技术,我们会考虑如何阻止恶意组织、个人或流氓国家,防止他们使用这些开源系统去实现他们的有害目的。这是我们必须回答的问题。我不知道这个问题的答案,但我也没能从支持开源一切的人那里听到让人信服的答案。我认为这其中必须要有些平衡。但很显然这是个很复杂的问题。

Dwarkesh Patel:在安全方面,其它一些实验室有自己的专攻领域,比如 Anthropic 在研究可解释性。现在你们有了最前沿的模型,你们也会在安全方面做前沿研究吗?

Demis Hassabis:我们已经开创了 RLHF 等技术,这不仅能用于提升性能,也能用于安全。我认为很多自我博弈想法也有潜力用于自动测试新系统的边界条件。部分问题在于,对于这些非常通用的系统,它们的适用范围非常广。我认为我们将需要一些自动测试技术以及之前提到的模拟和游戏、非常拟真的虚拟环境。在这方面我们有很长的研究历史。另外,很幸运谷歌有大量网络安全专家和硬件设计师。这也是我们可以获得的安全保障。

多模态和进一步的进展

Dwarkesh Patel:对于 Gemini 这样的系统,目前与它们默认的交互方式是通过聊天。随着多模态和新能力的加入,这种情况会如何改变?

Demis Hassabis:在理解完整的多模态系统方面,我们还处于起步阶段。与其的交互方式将与我们现在的聊天机器人大不相同。我想明年的下一代版本可能会具有一定的环境理解能力,比如通过相机或手机。然后我可以想象下一步。模型在理解方面会变得越来越顺畅。我们可以使用视频、声音甚至触碰。如果再考虑到使用传感器的机器人,世界将会开始变得激动人心。我想未来几年,我们就能看到多模态对机器人学科意味着什么。

Dwarkesh Patel:Ilya 曾在播客上跟我说过 OpenAI 放弃研究机器人的原因:在该领域的数据不够,至少在那时候是如此。您认为这对机器人的发展而言依然还是一个瓶颈吗?

Demis Hassabis:我们的 Gato 和 RT-2 Transformer 取得了激动人心的进展。我们一直以来都很喜欢机器人。我们在这一领域也有出色的研究成果。我们仍然在进行机器人研究,因为我们其实喜欢这一事实:这是一个数据稀少的领域。我们认为这会是一个非常有用的研究方向,其中涉及到的课题包括采样效率和数据效率、从模拟环境迁移到现实的迁移学习。我们一直在努力研究。

实际上 Ilya 说得对,机器人很有挑战性就是因为数据问题。但我想我们会开始看到大模型可以迁移到机器人领域、在非常普适的领域学习,并且可以将 Gato 这样的 token 当作是任意类型的 token 进行处理。这些 token 可以是动作,也可以是词、图块、像素等等。我心中的多模态就是这样。但一开始,训练这样的系统比简单直接的文本语言系统更困难。我们之前聊迁移学习时也谈到了,对于一个真正的多模态系统,一个模态是可以从其它模态获益的。比如如果模型更加理解视频,其语言能力也会有所提升。我们最后会有一个这样的更加通用、更有能力的系统。

Dwarkesh Patel:DeepMind 发表了许多有趣的研究成果来加速不同领域的科学研究。为什么要构建这样的特定领域的方案呢?为什么不等到一二十年后让 AGI 来做?

Demis Hassabis:我想我们并不知道 AGI 将在何时到来。而且我们过去也常常说,我们不必等到 AGI,也能做出些出色的成果来造福这个世界。我个人也对 AI 在科学和医疗领域的应用充满热情。而且你可以看到我们的多篇 Nature 论文关注了多个不同的领域。有很多激动人心的研究方向能影响这个世界。作为拥有数十亿用户的谷歌的一分子,我们很荣幸有这样的巨大机会,可以将我们取得的进步快速提供给数十亿人,帮助改善、丰富和助力他们的日常生活。

从 AGI 的角度看,我们也需要检验我们的想法。我们不能指望闭门造 AI 就能推动发展,因为这样只会让内部指标偏离人们真正会关心的真实事物。真实世界应用能提供大量直接的反馈,可以让我们知道系统是否在进步或者我们是不是需要提高数据或样本效率。因为大多数真实世界难题都需要这样。这能不断推动和引导你的研究方向,以确保它们走在正确的道路上。当然,另一方面是,即便是在 AGI 诞生之前很多年,世界也能从中获益。

Google DeepMind 内部

Dwarkesh Patel:Gemini 的开发工作涉及到谷歌大脑和 DeepMind 等不同机构的合作。这其中遇到了哪些挑战?产生了哪些协同效应?

Demis Hassabis:过去的一年是很棒的一年。当然,挑战是有的,和任何大型整合工作一样。但我们是两个世界级的组织,各自都发明了许多重要技术,从深度强化学习到 Transformer。因此,我们的很多工作就是将这些汇集起来,实现更加紧密的合作。其实我们过去常常合作,只不过之前是针对具体项目的合作,现在则是更加深度和广泛的合作。

Gemini 是这一合作的首个成果,其实 Gemini 这个名字就暗含了孪生兄弟姐妹的意思。当然,也有很多事情的效率更高了,像是把计算资源、想法和工程开发工作汇集到一起。我们目前就处于这个阶段,基于世界级的工程开发来构建前沿系统。我认为进一步的合作是有意义的。

Dwarkesh Patel:您和 Shane 创立 DeepMind 的部分原因是你们担忧 AI 的安全问题。您认为 AGI 的到来有现实的可能性。您感觉来自谷歌大脑的研究者也有类似看法吗?这个问题方面是否存在文化差异?

Demis Hassabis:没有。总体而言,这就是我们在 2014 年与谷歌携手的原因之一。我认为,谷歌和 Alphabet 整体(不只是谷歌大脑和 DeepMind)都以负责任的态度认真对待这些问题。差不多我们的座右铭就是大胆尝试这些系统,同时要负起责任。我显然是一个技术乐观主义者,但我希望我们对技术保持谨慎,毕竟我们共同为这个世界带来的东西具有变革性的力量。我认为这很重要。我认为这将成为人类发明的最重要的技术。

Dwarkesh Patel:最后一个问题。2010 年时,当其他人还觉得 AGI 很荒谬时,您就在思考这个终极目标了。现在随着这类技术的慢慢起飞,您是怎么想的呢?您是否已经在您的世界模型中预想到过?

Demis Hassabis:是的,我确实已经在我的世界模型中预想到过这些,至少是从技术角度。但很显然,我们不一定预料到了公众会在如此早期阶段参与进来。像是 ChatGPT 等一些应用在某些方面还有所欠缺,但人们已经有浓烈的兴趣去使用它们了。这一点挺让人意外的。

另外还有更加专业化的系统,比如 AlphaFold 和 AlphaGo 以及一些科学方面的成果,但它们在公众关注的主线发展之外,也许几年后公众会关注到它们,那时候我们可能就有了更加普遍适用的助理类型的系统。这会创造出一个和现在不一样的环境。而且情况可能看起来会更混乱,因为会有很多事情发生,也会有很多风险投资,好像所有人都失去理智一样。

我唯一担忧的是我们能否负责任地、深思熟虑地、科学地对待这种情况,使用科学方法来应对。也就是我说的乐观但谨慎的方式。我一直都相信这是我们应对 AI 这类事物的方式。我希望我们不会迷失在这场快速袭来的巨大热潮中。

参考链接:

https://www.dwarkeshpatel.com/p/demis-hassabis

https://twitter.com/dwarkesh_sp/status/1762872471479529522

理论Demis HassabisGoogle DeepMind
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
Shane Legg人物

DeepMind 联合创始人、首席科学家

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature。2018 年 12 月,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中,AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

迁移学习技术

迁移学习 是属于机器学习的一种研究领域。它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。计算机领域的迁移学习和心理学常常提到的学习迁移在概念上有一定关系,但是两个领域在学术上的关系非常有限。

推荐文章
暂无评论
暂无评论~