Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者为清华大学计算机系本科生钱成,何秉翔。两人均为 THUNLP 成员。钱成主要研究兴趣为工具学习,大模型驱动智能体,即将就读 UIUC 博士。何秉翔主要研究兴趣为大模型对齐与安全,即将就读清华大学博士。本文通讯作者为从鑫与林衍凯,指导教师为刘知远副教授。

人工智能迅猛发展的今天,我们不断探索着机器的智能化,但却往往忽视了这些智能体如何深层地理解我们 —— 它们的创造者。我们人类在生活中的每一次互动,每一句话语,每一个行为,都充斥着意图和情感。但真正的挑战在于:这些隐式的意图如何被智能体捕捉、解析并作出反应?传统的智能体对明确的命令反应迅速,然而在理解复杂的人类隐式意图上,它们往往显得力不从心。

近年来,GPT 和 LLaMA 等语言模型展示了在解决复杂任务上的惊人能力。然而,尽管以它们作为核心的智能体擅长制定策略、执行任务,却很少兼顾鲁棒的用户交互策略。用户给出的任务通常是模糊和简短的,这就需要智能体不仅能理解我们的字面请求,更要能透视我们的隐式意图。

因此,让新一代的智能体落地并为大众所用,需要以人为中心,不仅仅关注于任务执行的精确度,更关注于如何与人类建立起一种更加自然、流畅而富有洞察力的沟通方式。

为了弥补这一缺失,近期来自清华大学、人民大学、以及腾讯的联合团队提出了一种全新的智能体交互设计方案。该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。

以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后,文章对完全态的智能体系统进行了全面评估。

结果显示,这套方案在识别模糊用户任务、恢复和总结关键缺失信息、设定精确且必要的智能体执行目标、以及减少冗余工具使用等诸多方面有着突出表现。这一创新的方法,不仅填补了智能体与用户交互的空白,将人类真正置于智能体设计的中心,同时意味着我们正在向着设计更加符合人类意图的智能体的目标迈进一步。

图片

  • 论文标题:Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents
  • 论文链接:https://arxiv.org/abs/2402.09205
  • 代码仓库:https://github.com/HBX-hbx/Mistral-Interact
  • 开源模型:https://huggingface.co/hbx/Mistral-Interact
  • 开源数据集:https://huggingface.co/datasets/hbx/IN3

图片

                                           智能体系统对于模糊任务和清晰任务执行的对比
 
Intention-in-Interaction 基准测试

当前的智能体基准测试通常假设给定的任务是清晰的,并没有把用户意图理解当作评估的重要方面。鉴于评估指标的不完备性,该工作制定了 Intention-in-Interaction(IN3)基准测试,旨在通过明确的任务模糊性判断和用户意图理解来评测智能体的交互能力。

图片

                                            IN3 基准数据的构造过程

如上图所示,基于人类编写的种子任务为 Step 1,模型迭代生成新任务以增强数据集,同时从数据集中采样以作为下一轮生成的新示例(Step 2)。在这种 Self-Instruct 的生成方式后,再对每个任务的模糊度、缺失细节以及每个细节的重要程度和潜在的选项进行人工标注(Step 3)。
 
Mistral-Interact 训练过程
 
由于大语言模型处于智能体设计的核心位置,该工作首先进行了一项初步研究,评估当前开源和闭源模型在交互过程中的隐式意图理解能力。

具体地,文章从 IN3 中随机抽取了十个任务,将它们应用于测试 LLaMA-2-7B-Chat、Mistral-7B-Instruct-v0.2 和 GPT-4 并指示这些模型 i)判断任务的模糊度,ii)在任务模糊时询问用户缺失的细节,iii)总结详细的用户任务。

图片

                                        隐式意图理解初步研究中各个模型的定量与定性结果展示

由结果可见,Mistral 在一定程度上表现更好,但仍然存在对人类意图理解不足的问题。相比之下,GPT-4 在任务模糊度和重要缺失细节方面与人类意图最为接近。同时,初步探索也表明,为了进一步提升智能体在交互中的隐式意图理解能力,单纯的提示工程(prompt engineering)是不够的,有必要以当前开源模型为基础,进一步训练,以达到可以在智能体落地应用的程度。

图片

                                         训练数据(IN3 对话记录)的构造过程

参照上图,根据 IN3 关于任务模糊度、缺失细节和潜在选项的标注,文章在构建对话记录过程中应用了若干策略(橙色框),其中包括:清晰初始推理链的构造、带有建议选项的询问构造、不同用户回答语气的构造、以及清晰总结推理链的构造。这几种对话构造策略将更好地激发目标模型的询问以及推理能力。

智能体交互能力全面评估

智能体的隐式意图理解能力既可以通过用户交互来直接评估,也可以通过智能体执行下游任务来间接评估。其中,用户交互关注意图理解本身,而任务执行关注意图理解的最终目的,即增强智能体处理任务的能力。

因此,为了全面评估可交互智能体设计,文章将实验分为两个部分:i)指令理解:评估智能体在用户交互期间的意图理解能力;ii)指令执行:评估集成了交互模型后智能体的任务执行表现。

指令理解并不涉及任何实时的智能体执行,因此文章直接评估了不同语言模型在交互过程中的表现,以判断其作为智能体设计中的上游模块的交互能力,结果如下表所示:

图片

                                       指令理解测试结果,其中箭头代表得分越高 / 越低则能力更强

结果表明,Mistral-Interact 能够更好地理解用户的意图,在判断任务模糊度以及缺失细节的覆盖率等指标上表现最佳,而且能够基于详细的用户意图进行明确而全面的总结。相较于其他开源模型,Mistral-Interact 在询问模糊任务中的缺失细节方面能提供更加合理的选项,询问方式更加友好,并与 GPT-4 的表现不相上下。

在指令执行方面,为了评估隐式意图理解对于智能体任务执行有效性,文章将 Mistral-Interact 作为上游交互模块整合到 XAgent 框架中进行测试。其中,XAgent 可以在诸如网络搜索、代码执行、命令行和文件系统等环境中进行交互。

图片

                                        指令执行测试结果 (ST 代表 subtask,MS 代表 milestone)

上表呈现了智能体任务执行的定量评估结果,结果表明整合 Mistral-Interact 有助于:i)在执行过程中避免设定不必要的目标,ii)使智能体的执行过程更加符合详细的用户意图,以及 iii)减少不必要的工具调用,促进智能体工具使用效率。

智能体交互案例分析
 
在指令理解方面,为了进一步展示 Mistral-Interact 在不同对话场景下的鲁棒性,文章还提供了三个案例分析。

图片

                                     Mistral-Interact 与用户在不同场景下的案例分析

案例 A 展示了不同用户语气和对话风格对 Mistral-Interact 的影响。文章发现,无论用户的回答是简短还是详细,热情还是冷漠,甚至包含拼写错误,Mistral-Interact 都能准确理解并提供适当的回应,证明了其鲁棒性。

在案例 B 测试了当用户表现出不合作的态度时,Mistral-Interact 是否能够继续追问并引导对话回到正轨。结果显示,即使用户回避问题,其仍然能够有效地重新引导对话。

在案例 C 中可以观察到 Mistral-Interact 可以将用户提供的额外信息纳入总结,而这些信息并没有被交互模型明确询问。这表明,当模型的询问无法完全覆盖缺失细节或用户有特定要求时,模型仍然能够合理而全面地总结所有用户意图,从而使其更加用户友好。

在指令执行方面,为了更清晰阐明 Mistral-Interact 的作用,下图中提供了一个比较的案例研究。

图片

                                      智能体与 Mistral-Interact 交互前后的执行过程的案例研究

根据上图中标记为浅红色的文本,可以发现当用户的目标模糊时,XAgent 无法准确设定精确反映用户需求的子任务。根据标记为紫色的文本,可以发现 XAgent 时常会设置一些不必要的子任务。这些均因为用户的任务过于模糊而无法执行,智能体倾向于虚构一些不必要的细节,从而与用户的真实意图不符。

相比之下,在与 Mistral-Interact 进行积极交互后,明确的任务目标能够让 XAgent 制定更具体的子任务。图中标记为绿色的文本展示了这种一致性。同时,智能体执行流程变得更加简单,工具调用次数也有所减少。所有这些都反映了一个更加高效的智能体执行过程。

结语

我们正站在一个全新的起点,准备见证一个人机协同、相互理解与学习的新篇章。智能体即将不再是冰冷的信息处理器,而是充满同理心的伙伴,它们能够通过细腻的交互体验,深刻理解我们背后可能并没有最初明确表达的需求和愿望。这场以人为中心的智能体设计革命,将揭示出交互中的无限可能性,进而让智能体真正成为我们生活中不可或缺的助力。
产业Intention-in-Interaction(IN3)
1
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
刘知远人物

刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011 年获得清华大学博士学位,已在 ACL、IJCAI、AAAI 等人工智能领域的著名国际期刊和会议发表相关论文 60 余篇,Google Scholar 统计引用超过 2100 次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel 青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI 期刊 Frontiers of Computer Science 青年编委,ACL、COLING、IJCNLP 领域主席。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~