Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

谷歌DeepMind给AGI划等级,猜猜ChatGPT在哪个位置

AGI 该如何划分,谷歌 DeepMind 给出了标准。


我们到底该如何定义 AGI(通用人工智能)?如果你要求 100 位 AI 专家进行解答,你可能会得到 100 个相关但不同的定义。

现阶段,AGI 是 AI 研究中一个重要且存在争议的概念,有研究者认为 AGI 已经出现在最新一代大语言模型(LLM)中;还有一些人预测人工智能将在大约十年内超越人类,甚至断言当前的 LLM 就是 AGI。

深入理解 AGI 的概念很重要,因为它映射人工智能所要达到的目标、对事物的预测以及带来的风险。

我们该如何划分 AGI 等级呢?就像自动驾驶等级(如 L0 无自动驾驶)一样,这种级别的划分对人与人之间的沟通能力、制定规则和定义自动驾驶目标非常有用。本文,来自 Google DeepMind 的研究者提出了类似的 AGI 等级,根据划分原则,ChatGPT 被划分为 L1 Emerging AGI,Imagen 是 L3 Expert Narrow AI,AlphaGo 被划分为 L4 Virtuouso Narrow AI。

具体而言,他们提出了一个框架,用于对 AGI 模型进行分类。Google DeepMind 希望这个框架能够以类似于自动驾驶水平的方式发挥作用,从而提供一种通用语言来比较模型、评估风险和衡量 AGI 的进展。 

为了开发这个框架,DeepMind 对 AGI 的现有定义进行了分析,并提炼出了六个原则:

  • 关注模型能力,而不是过程。
  • 注注通用性和性能。
  • 关注认知和元认知任务。
  • 关注潜能,而不是部署。
  • 关注生态的有效性。
  • 关注 AGI 发展道路,而不是只关心终点。

在这些原则的基础之上,DeepMind 从性能和通用性两个维度提出了「AGI 等级(Levels of AGI)」。

  • Level 0:无 AI(No AI),如 Amazon Mechanical Turk;
  • Level 1: 涌现(Emerging),与不熟练的人类相当或比之更好, 如 ChatGPT、Bard、Llama 2 ;
  • Level 2: 有能力(Competent),达到 50% 的人类水平,广泛任务上还没实现;
  • Level 3: 专家(Expert),到达 90% 的人类水平,广泛任务上还没实现, Imagen、Dall-E 2 在特定任务上已经实现;
  • Level 4: 大师(Virtuoso) ,达到 99% 的人类水平,在广泛任务上还没实现,Deep Blue 、AlphaGo 在特定任务上已经实现;
  • Level 5: 超人类(Superhuman),胜过 100% 人类,广泛任务上还没实现,在一些任务范围内,AlphaFoldAlphaZero 、 StockFish 已经实现。

图片

论文地址:https://arxiv.org/pdf/2311.02462.pdf

AGI 六个原则

 DeepMind 认为,AGI 的任何定义都应满足以下六个标准:

 1. 关注模型能力,而不是过程。这一原则可以帮助我们排除一些不一定是实现 AGI 的必备条件。比如实现 AGI 并不意味着系统以类似人类的方式进行思考或理解;又比如实现 AGI 并不意味着系统拥有诸如意识(主观意识)或感知力(有感情的能力)等属性。

2. 关注通用性和性能。所有定义都不同程度地强调了通用性,但有些定义排除了性能标准。DeepMind 认为通用性和性能都是 AGI 的关键组成部分。

3. 关注认知和元认知任务。是否需要具身智能作为 AGI 的标准是一个有争议的问题。大多数定义侧重于认知任务,即非物理任务。尽管机器人技术最近取得了进展,但人工智能系统的物理能力似乎落后于非物理能力。DeepMind 认为执行物理任务的能力可以增加系统的通用性,但不应被视为实现 AGI 的必要先决条件。另一方面,元认知能力(例如学习新任务的能力或知道何时向人类寻求澄清或帮助的能力)是系统实现通用性的关键先决条件。

4. 关注潜能,而不是部署。假如我们证明了一个系统可以在给定的性能水平上执行一组必要的任务,那么就足以声明该系统是 AGI,然而部署这样的系统不应该被视为是 AGI 固有的。要求将可部署能力作为衡量 AGI 的必要条件会带来非技术障碍,例如需要考虑法律和社会责任,以及潜在的道德和安全问题。

5. 关注生态有效性。用来衡量 AGI 进展的 benchmark 非常重要,虽然传统的 AI 指标非常容易自动化或量化,但可能无法获得人们在 AGI 中看重的技能。

6. 关注 AGI 发展之路,而不是只关心终点。本文认为定义 AGI 等级是有价值的。将 AGI 的每个等级与一组清晰的指标 / 基准相关联非常有意义。

根据原则 2 和原则 6,表 1 引入了一个矩阵式分级系统,该系统将性能和通用性作为 AGI 的核心维度:

图片

DeepMind 认为,当前的前沿语言模型应被视为 Level 1 General AI(Emerging AGI)。而下一等级 Level 2 General AI,即 Competent AGI,需要在更广泛任务集上提高性能才能达到。

在 Level 3 Narrow AI,即 Expert Narrow AI 等级中,大家熟知的 DALLE-2 被划分为这一等级。之所以这样划分,DeepMind 表示 DALLE-2 生成的图像质量比大多数人类能够绘制的图像质量都高。

在矩阵分级系统中,AGI 的最高等级是 ASI (Artificial Superintelligence),即把「超人类」的表现定义为超越 100% 的人类。举例来说,假设 AlphaFold 是  Level 5 Narrow AI (Superhuman Narrow AI),因为它执行单一任务高于世界顶尖科学家水平。这一定义意味着 ASI 系统将能够以人类无法比拟的水平完成广泛的任务。

此外,这一框架还意味着超人类系统或许能够比较低级别的 AGI 执行更广泛的任务,例如,ASI 系统可能拥有人类所没有的技能,如通过分析大脑信号来解码人类思想,通过分析大脑信号来解码思想机制,又或者与动物交流。

接着文章又讨论了 AI 风险。表 2 说明了 AGI 等级、自主等级和风险之间的相互作用。表 2 还提供了六个自主等级的具体示例。

图片

了解更多内容,请参考原论文。
理论通用人工智能DeepMind
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature。2018 年 12 月,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中,AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~