Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

告别偏科,能玩转多模态、多任务、多领域的强化智能体终于来了

模型、专家智能体和数据集都已开源。

随着 Llama 3 发布,未来大模型的参数量已飙升至惊人的 4000 亿。尽管每周几乎都有一个声称性能超强的大模型出来炸场,但 AI 应用还在等待属于它们的「ChatGPT 时刻」。其中,AI 智能体无疑是最被看好的赛道。

就连吴恩达都说,GPT-4 加上 AI 智能体,可能提前达到 GPT-5 的效果。

不过,我们熟知的智能体往往有点「偏科」。例如,第一个 AI 软件工程师 Devin,专精于代码。会打游戏的智能体往往也只能在某一个游戏里秀操作。寻找一个能够同时擅长多个领域,并能在其中无缝切换的通用模型仍是机器学习研究中的一个关键目标。

为了解决这个问题,研究者们对于智能体如何结合计算机视觉(CV)和自然语言处理(NLP)任务进行了广泛探索,但将强化学习(RL)任务整合进来的研究相对较少。这是由于 RL 任务本质上是异质的,这使得将 RL 任务与对话和图像识别等其他任务结合起来更加困难。这要求智能体能融会贯通不同领域任务中的不同模态、任务复杂性和数据类型。要达到全能型智能体,主要需要解决以下问题:(1)如何设计一个能够处理多种数据类型和模态的统一模型结构?(2)如何有效地平衡不同任务的学习进度和优先级?(3)如何确保智能体制定合适的学习目标,以避免不同任务之间的干扰和负向迁移?

来自 Hugging Face、法国国家信息与自动化研究所(INRIA)和波尔多大学的四位研究者提出了智能体中的「六边形战士」——Jack of All Trades (JAT)。JAT 是一个基于 Transformer 的多模态通用强化学习智能体框架。在此框架下,智能体能够通过同一套参数应对不同复杂度的多种任务,化身既会打游戏,又能控制机器人的全能高手。论文同时发布了大量 RL 智能体与 JAT 数据集。这是首个用于通用智能体训练的数据集 JAT 数据集,包含了由专家智能体收集的数十万条轨迹。

图片

  • 论文名称:《Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent》

  • 论文链接:https://huggingface.co/papers/2402.09844

  • 代码链接:https://github.com/huggingface/jat

  • 项目链接:https://huggingface.co/jat-project/jat

  • 数据集:https://huggingface.co/datasets/jat-project/jat-dataset

图片

模型架构

JAT 的核心结构基于 Transformer,使用了 EleutherAI 的 GPT-Neo 实现。JAT 最大的创新点在于其嵌入机制,从本质上解决了数据类型不同的问题。JAT 模型将观察嵌入与其对应的奖励值和动作嵌入交错排列,形成一个序列。

图片

图 1.JAT 网络架构。对于序列中的决策任务,一方面输入观察嵌入与奖励值,另一方面行动嵌入被编码并被交错放置。模型使用因果掩码自回归地生成下一个嵌入,并根据预期的模态进行解码。

因此,每个嵌入要么对应一个与奖励相关联的观察嵌入,要么对应一个动作嵌入。JAT 如何进一步对这些信息进行编码呢?这要取决于数据的类型。如果观察嵌入或动作嵌入的数据类型是图像,那么 JAT 将使用 CNN。如果是连续向量,则使用线性层。如果是离散值,则使用线性投影层。模型的输出也遵循相同的逻辑,具体取决于预测目标的数据类型。预测基于因果推理进行,将观察嵌入向后移动一个时间步,确保智能体可以根据所有先前的观察和动作嵌入来预测下一个动作嵌入。

这种嵌入设计让研究团队在训练智能体执行 NLP 和 CV 任务时兴致盎然。对于和文本相关的任务,作者让 JAT 模型采用 GPT-2 的分词策略,将文本转换为一个整数序列,然后通过一个查找表映射到一个嵌入向量序列。对于和图像有关的任务,JAT 模型将选择 ViT 方法,将图像切割成小块后,通过线性层转换为嵌入向量序列。JAT 模型再将图像和文本的向量序列拼接在一起,形成一个统一的序列,输入到 Transformer 中。

考虑到数据的模态变来变去,JAT 如何计算损失函数呢?它将针对每种模态分别计算 loss。对于图像和连续值,它使用均方误差(MSE)损失。对于离散值,它使用交叉熵损失。最终的损失是序列中每种元素损失的平均值。那么,这是否意味着 JAT 在预测动作嵌入和观察嵌入时的权重是相同的呢?实际上不是,在此后的章节中将一步探讨这个问题。

实验结果

研究团队共采用了 157 个训练任务来 JAT 评估。他们将这些任务分为 10 类,并记录了 JAT 的总奖励值。

图片

JAT 模型在最终的检查点上达到了 65.8% 的专家得分,说明 JAT 能够在非常广泛的任务上达到专家水平。以下具体列出了 JAT 在四个常见的智能体训练环境中的得分:

  • 对于 Atari 57,应用 JAT 模型的智能体实现了专家分数的 14.1%,这相当于人类表现的 37.6%。Atari 视频游戏广泛被用作评估和开发强化学习算法的基准环境,其中《吃豆人》是一款标志性游戏。在这一系列的 21 款游戏中,JAT 智能体的表现已经超越了人类玩家。值得注意的是, JAT 只用了单一网络就在所有 Atari 视频游戏中达到了这种水平;

  • 对于 BabyAI,应用 JAT 模型的智能体达到了专家分数的 99.0%,只有一个任务的表现未能超过专家水平的 50%;

  • 对于 Meta-World,应用 JAT 模型的智能体达到了专家分数的 65.5%;

  • 对于 MuJoCo,应用 JAT 模型的智能体达到了专家分数的 84.8%。

图片

                                JAT 智能体在 Atari 57 基线上和人类表现的对比

图片

                                JAT 智能体在小游戏中的表现

这些 JAT 智能体都可以通过项目主页下载,进一步测试和体验。更多细节请参阅论文原文。

专家智能体和 JAT 数据集

专家策略

传统的强化学习往往在单一环境中寻找专家策略,即在一个特定任务中寻找让模型表现最优的方法。构建跨领域的多功能智能体,也离不开这种方法。论文作者选择了 Atari、BabyAI、Meta-World 和 MuJoCo 一系列性质不同,难度各异的训练环境,直到训练出表现最好的智能体。这一系列采用 JAT 框架的专家智能体已经在项目主页上发布。

JAT 数据集

论文作者随论文同步发布了 JAT 数据集,这是首个针对通用智能体训练的专项数据集。其中包含了数十万条由上述专家智能体收集的轨迹数据。使用起来也很方便,可以像加载 Hugging Face 平台上的其他数据集一样简单。以下是调用代码示例:

图片

JAT 数据集不仅包含强化学习的数据,还整合了来自维基百科等文本数据集,以及 Oscar、OK-VQA、Conceptual Captions 等针对视觉任务的数据集,提供了更丰富的数据类型选择。

增加模型预测观察嵌入的能力

智能体学得更好更快了

在训练强化学习智能体时,主要目标是使其在未曾遇到的任务中实现奖励最大化。然而,如果要求智能体预测未来可能遇到的情境,这一额外任务会促进还是阻碍其学习过程呢?

关于这个问题存在两种相反的观点。一方面,学会预判可能会让智能体对环境有更深入的理解,从而学得更好更快。另一方面,这可能会分散智能体对其主要目标的注意力,导致在预测观察嵌入和行动嵌入时都表现平庸。

为了得到问题的答案,论文作者进行了一个实验,使用了一个结合了观察损失和行动损失的损失函数,并通过权重参数 k 来平衡这两种损失。

图片

研究团队在 95% 的置信区间内,针对选定任务,测量了预判将如何影响模型学习。每项任务进行了 100 次评估,基于这些评估得到了 k 值的范围。结果表明,适当选择 k 值可以显著提升智能体的表现。

当 k 值过高(高于 0.5)时,预测观察嵌入的额外任务阻碍了学习过程。但当 k 值较低时,对学习的影响可以忽略不计,且智能体的表现与没有额外预判任务时的表现相似。

研究团队发现,当 k=0.005 时,存在一个最佳临界点。这意味着,只要平衡得当,为智能体增加预测观察嵌入的任务,实际上可以提高智能体的学习效率。这一发现对于设计类似的智能体具有重要意义,突显了辅助目标在提升智能体学习效率方面的潜在价值。

未来展望

JAT 项目为通用智能体研究领域开辟了全新的方向。研究团队表示目前只是初步探索,以下几点思路可供未来研究者深入挖掘:

改进数据的质量:尽管填补了之前少有通用智能体训练数据集的空缺,JAT 数据集仍处于初级阶段。其中的专家轨迹仅来自每个环境中的一名专家智能体,这可能导致一些误差。虽然研究团队已尽力让智能体达到最优表现,但某些环境仍具挑战性。在这些环境中,智能体仍有很大进步空间。收集到更多数据,训练更多的专家智能体,将在很大程度上解决这些问题。

使用离线强化学习:JAT 智能体是仿照基线一比一地训练出来的。这意味着,其一,智能体无法利用次优的轨迹;其二,JAT 智能体无法超越专家。论文选择了这种方法是因为它比较简单,但研究团队相信,使用离线强化学习可以提高智能体的性能,同时,实现起来也不会过于复杂。

发挥更智能的多任务采样策略的全部潜力:目前,JAT 智能体均匀地从所有任务中采样数据,但这种方法可能限制了它的全部潜力。通过动态调整采样率,专注于最具挑战性的任务,或许也可以加速智能体的学习过程,并解锁显著的性能提升。

参考链接:

https://huggingface.co/blog/jat

https://twitter.com/QGallouedec/status/1782430246957994422

产业多模态通用强化学习智能体框架Jack of All Trades
相关数据
吴恩达人物

斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。

所属机构
因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

置信区间技术

在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

图像切割技术

图像切割指用深度学习算法等,将图像中拥有特定性质的目标位置切割出来。如具有最高艺术鉴赏价值的部位。

推荐文章
暂无评论
暂无评论~