Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

博弈论让 AI 更加正确、高效,LLM 与自己竞争

编辑 | 绿罗

想象一下,你有一位朋友对同一问题给出了不同的答案,具体取决于你提问的方式。

「秘鲁的首都是哪里?」会得到一个答案;「利马是秘鲁的首都吗?」 会得到另一个。你可能会有点担心你朋友的智力,而且你几乎很难相信他们给出的任何答案。

这正是许多大型语言模型 (LLM) 正在发生的事,这些超强大的机器学习工具为 ChatGPT 和其他人工智能奇迹提供了动力。开放式的生成性问题会产生一个答案,而涉及必须在选项之间进行选择的判别性问题,通常会产生不同的答案。麻省理工学院的博士生 Athul Paul Jacob 表示:「当同一个问题的措辞不同时,就会出现脱节。」

为了使语言模型的答案更加一致,并使模型整体更加可靠,Jacob 和他的同事设计了一个游戏,在这个游戏中,模型的两种模式被驱使着去寻找他们能达成一致的答案。这个简单的程序被称为共识博弈(consensus game),让 LLM 与自己竞争,使用博弈论工具来提高模型的准确性和内部一致性。

图片

论文链接:https://openreview.net/forum?id=n9xeGcI4Yg

机器人公司 Field AI 的首席科学官 Shayegan Omidshafiei 表示:「探索这些模型内部一致性的研究非常有限。这篇论文是第一篇通过巧妙而系统的方式解决这个问题的论文之一,它为语言模型创建了一个可以自己玩的游戏。」

「这确实是一项令人兴奋的工作,」谷歌研究院的研究科学家 Ahmad Beirami 补充道。他说,几十年来,语言模型一直以同样的方式生成对提示的响应。「麻省理工学院的研究人员提出了将游戏引入这一过程的新颖想法,引入了一种完全不同的范式,这可能会催生一系列新的应用程序。」

将游戏融入研究

这项新研究利用游戏来改进人工智能,与过去的方法形成鲜明对比,过去的方法通过游戏的掌握程度来衡量人工智能程序的成功。

例如,1997 年,IBM 的深蓝计算机击败了国际象棋大师 Garry Kasparov,这对于所谓的思维机器来说是一个里程碑。十九年后,一个名为 AlphaGo 的谷歌 DeepMind 程序在与前围棋冠军李世石的五场比赛中赢得了四场,揭示了另一个人类不再称霸的竞技场。机器在跳棋、两人扑克和其他「零和」游戏中也超越了人类,在这些游戏中,一个玩家的胜利必然会导致另一个玩家的失败。

图片

Athul Paul Jacob 帮助设计了共识博弈,为大型语言模型提供了一种提高准确性和可靠性的方法。

外交(Diplomacy)游戏给人工智能研究人员带来了更大的挑战,这是 John F. Kennedy 和 Henry Kissinger 等政治家最喜欢的游戏。游戏中不仅有两名对手,还有七名玩家,他们的动机可能很难理解。为了获胜,玩家必须进行谈判,达成任何人都可以随时违反的合作安排。

外交是如此复杂,以至于 Meta 的一个团队在 2022 年看到其人工智能程序 Cicero 在 40 场游戏中开发出「人类水平的玩法」时感到非常高兴。虽然它没有击败世界冠军,但 Cicero 在与人类参与者的比赛中表现出色,进入了前 10%。

在该项目期间,Jacob(Meta 团队的成员)对 Cicero 依赖语言模型来生成与其他玩家的对话这一事实感到震惊。他感觉到了尚未开发的潜力。他说,团队的目标是「为了玩这个游戏,我们能够构建最好的语言模型。」但如果他们转而专注于创造能够提高大型语言模型性能的最佳游戏呢?

「两厢情愿」的交互

2023 年,Jacob 开始在麻省理工学院研究这个问题,与 Yikang Shen、Gabriele Farina 和他的顾问 Jacob Andreas 合作,研究什么将成为共识博弈。核心思想来自于将两个人之间的对话想象成一场合作游戏,当听众理解说话者试图传达的内容时,成功就会发生。特别是,共识博弈旨在协调语言模型的两个系统——处理生成问题的生成器和处理判别性问题的判别器。

经过几个月的停顿和启动,团队将这一原则融入到了一款完整的游戏中。首先,生成器收到一个问题。它可以来自人类,也可以来自预先存在的列表。例如,「巴拉克·奥巴马出生在哪里?」 然后生成器会收到一些候选响应,比如说檀香山、芝加哥和内罗毕。同样,这些选项可以来自人类、列表或语言模型本身执行的搜索。

但在回答之前,生成器还会被告知是否应该正确或错误地回答问题,具体取决于公平抛硬币的结果。

如果是正面,那么机器会尝试正确回答。生成器将原始问题及其选择的响应发送给鉴别器。如果鉴别器确定生成器有意发送了正确的响应,则它们每个人都会得到一分,作为一种激励。

如果硬币反面朝上,生成器会发送它认为错误的答案。如果鉴别器认为是故意给出错误的反应,他们都会再次得到一分。这里的想法是激励协议。「这就像教狗变戏法,」Jacob 解释道。「当他们做正确的事时,你就给他们奖励。」

生成器和鉴别器也各自以一些初始「信念」开始。它们采用与不同选择相关的概率分布的形式。例如,生成器可能认为,根据从互联网收集的信息,奥巴马出生在檀香山的可能性为 80%,出生于芝加哥的可能性为 10%,内罗毕的可能性为 5%,5% 的可能性出生在其他地方。

鉴别器可以从不同的分布开始。虽然这两个「玩家」仍会因达成协议而获得奖励,但他们也会因偏离最初信念太远而被扣分。这种安排鼓励玩家将他们对世界的了解(同样来自互联网)纳入他们的反应中,这应该会使模型更加准确。如果没有这样的东西,他们可能会同意像 Delhi 这样完全错误的答案,但仍然可以获得积分。

图片

对于每个问题,两个系统都会相互进行大约 1,000 场比赛。在这些无数次迭代的过程中,每一方都会了解对方的信念并相应地修改其策略。

最终,生成器和判别器在进入称为纳什均衡(Nash equilibrium)的状态时开始更加一致。这可以说是博弈论的核心概念。它代表了游戏中的一种平衡——没有玩家可以通过改变策略来改善个人结果。例如,在石头剪刀布中,当玩家选择三个选项中的每一个恰好有三分之一的时间时,他们会表现得最好,而使用任何其他策略时他们总是会表现得更差。

在共识博弈中,这可以通过多种方式发挥作用。判别器可能会观察到,每当生成器发送奥巴马出生地「檀香山」这个词时,判别器就会说「正确」,从而得到一个分数。经过重复的游戏后,生成器和鉴别器将了解到,他们将因继续这样做而获得奖励,并且两者都不会有任何动力去做其他任何事情。这个共识代表了这个问题的纳什均衡的许多可能的例子之一。麻省理工学院的研究小组还依赖于纳什均衡的修改形式,其中包含了参与者先前的信念,这有助于让他们的反应立足于现实。

研究人员观察到,最终的效果是使玩这个游戏的语言模型更加准确,并且无论问题如何提出,都更有可能给出相同的答案。为了测试共识博弈的效果,团队在具有 70 亿到 130 亿参数的各种中等规模语言模型上尝试了一组标准问题。这些模型通常比没有玩过的模型获得更高的正确响应百分比,甚至比那些拥有多达 5400 亿个参数的模型还要高。玩游戏还提高了模型的内部一致性。

原则上,任何 LLM 都可以从与自己进行的游戏中受益,并且在标准笔记本电脑上玩 1,000 轮只需要几毫秒。「整个方法的一个好处是,」Omidshafiei 说,「它的计算量非常轻,不需要对基础语言模型进行训练或修改。」

用语言玩游戏

在取得初步成功后,Jacob 现在正在研究将博弈论引入 LLM 研究的其他方法。初步结果表明,已经很强大的 LLM 可以通过使用任意数量的较小模型玩不同的游戏(暂时称为集成游戏)来进一步提高。主要 LLM 将至少有一个较小的模型作为盟友,并且至少有一个较小的模型扮演对抗角色。如果主要的 LLM 被要求说出美国总统的名字,只要它选择与盟友相同的答案,它就会得到一分,如果它选择与对手不同的答案,它也会得到一分。

测试表明,这些与更小的模型的交互不仅可以提高 LLM 的表现,而且无需额外的训练或参数更改即可实现这一点。

图片

Ian Gemp 将博弈论引入现实世界,这可以使大型语言模型在战略情况下提供帮助。

而这仅仅是开始。谷歌 DeepMind 的研究科学家 Ian Gemp 表示,由于各种情况都可以被视为游戏,因此博弈论的工具可以在各种现实世界的环境中发挥作用。在 2024 年 2 月的一篇论文中,他和同事重点讨论了需要更精细的交流而不仅仅是问题和答案的谈判场景。「这个项目的主要目标是使语言模型更具战略性,」他说。

图片

论文链接:https://arxiv.org/abs/2402.01704

他在一次学术会议上讨论的一个例子是期刊或会议接受论文的审查过程,特别是在初次提交的论文受到严厉审查之后。鉴于语言模型将概率分配给不同的反应,研究人员可以构建类似于扑克游戏设计的游戏树,绘制可用的选择及其可能的后果。「一旦你这样做了,你就可以开始计算纳什均衡,然后对一堆反驳进行排序,」Gemp 说。该模型本质上告诉您:这是我们认为您应该回复的内容。

借助博弈论的见解,语言模型将能够处理更复杂的交互,而不仅仅局限于问答类型的问题。「未来的巨大回报与更长的对话有关,」Andreas 说。「下一步是让人工智能与人互动,而不仅仅是另一种语言模型。」

Jacob 将 DeepMind 的工作视为共识游戏和集成游戏的补充。「从高层次上来说,这两种方法都将语言模型博弈论结合起来,」他说,尽管目标有些不同。Jacob 表示,虽然 Gemp 小组正在将常见情况转化为游戏格式以帮助制定战略决策,但「我们正在利用我们对博弈论的了解来改进一般任务中的语言模型。」

Jacob 说,目前,这些努力代表了「同一棵树的两个分支」——增强语言模型功能的两种不同方式。「我的愿景是在一两年内,这两个分支将融合。」

参考内容:https://www.quantamagazine.org/game-theory-can-make-ai-more-correct-and-efficient-20240509/

入门机器学习语言模型
1
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
纳什均衡技术

纳什平衡,又称为非合作赛局博弈,是在非合作博弈状况下的一个概念解,在博弈论中有重要地位,以约翰·纳什命名。 如果某情况下无一参与者可以通过独自行动而增加收益,则此策略组合被称为纳什均衡点。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

博弈论技术

博弈论,又译为对策论,或者赛局理论,应用数学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

推荐文章
暂无评论
暂无评论~