Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

阿里版ChatGPT就快来了

机器之心原创

作者:杜伟

「每个人都有一个自己的大模型 —— 这是一个想象力演示,还是真正的技术发展方向?……」‍

本周,阿里 AI 会有大动作已经传开了。自去年 11 月底 OpenAI 发布 ChatGPT 以来,大语言模型成为整个 AI 社区关注的焦点。国外大厂要么在自己的应用中融合 ChatGPT(如微软新必应),要么推出对标大模型(如谷歌 Bard)。国内也掀起了研发类 ChatGPT 的热潮,先后出现了 ChatYUAN、MOSS、文心一言等文本对话大模型和产品。

第一个透出的是阿里大模型联合项目团队(以下简称联合团队)调教出了一个有个性的大模型,与脱口秀演员鸟鸟合作训练出她的数字分身 —— 鸟鸟分鸟。在这个针对消费级终端的大模型技术交流中,机器之心参与评测了几个重要体验:

  • 唤醒一次,即可与 “鸟鸟分鸟” 不间断自由语音对话。
  • 鸟鸟分鸟很拟人化,拥有了鸟鸟的音色、语气、表达方式。
  • 与其他对话机器人一样,可以从鸟鸟分鸟那里了解百科知识,还能在创作时获得灵感。

鸟鸟是一位脱口秀演员,她在《脱口秀大会第 5 季》中获得年度亚军,其社恐式脱口秀风格收获了大量粉丝,被称为文本之神、互联网嘴替。

机器之心还向这个联合团队了解,其研究的特点是两个方面:一是如何让大模型为个人终端、家庭场景等安全高效的服务;二是 AIGC 以多模态驱动,包括文本、图像、语音、视频。

由于整个技术接口通过天猫精灵终端进行演示,我们应该可以预期,阿里版 ChatGPT 应该会融合多种产业场景,推向智能助手和消费终端行业是其中之一

鸟鸟分鸟为你说段子、讲名著、辅导写作

是骡子是马拉出来遛遛,在拿到天猫精灵音箱后,机器之心立即体验了一把鸟鸟分鸟的聊天能力。

一番体验下来,鸟鸟分鸟超出了预期,就像跟鸟鸟本人交流一样,很有那个味!此外在知识启蒙、共情和创作辅助的多轮对话中带给用户帮助。不过目前能力不稳定,比如让它来段周杰伦的音乐,只能说出几句歌词,没有跳到播放音乐技能。相信后续版本会呈现更好的效果。

个性化:大模型研究的重要方向

最近几年,大模型在通识任务上的表现越来越出色,基于超大规模语料训练的大模型在知识评测等任务上超越了人类平均水平。ChatGPT 等对话大模型的出现更让人切身感受到 AI 的智能水平,其回答人类问题的能力令人叹服。然而,目前的通识大模型似乎缺少了个性,当问它的偏好、对某事的看法这类问题时,回答效果就没那么好了。

因此,在主流通识大模型的基础之上注入个性化是一个重要的探索方向。从相关研究的演进来说,这种个性化大模型在对话场景训练中关注多轮对话中人设一致性、对话风格、逻辑一致性和对话三观以及有偏好的个性化对话。这意味着它们被赋予了相应的角色设定,包括身份、性别、名字、性格、偏好等,并拥有了共情能力。针对个性化大模型的这四个细分方向,学界和业界已经发表过一些相关的观点和论文。

关于多轮对话中人设一致性,哈工大研究团队在 AAAI 2019 论文 [1] 中提出利用自然语言推理(NLI)技术来解决,将来自响应 - 角色对(response-persona pairs)的 NLI 信号作为对话生成过程的奖励。关于对话风格,Meta 在论文 [2] 中利用三种可控生成方法(即检索和风格迁移、即插即用和有条件生成器微调)控制开放域对话的风格。关于对话过程中的三观,爱丁堡大学联合 DeepMind 在论文 [3] 中提出要赋予对话大模型不同的三观。

最后关于有偏好的个性化对话,华南理工联合清华大学在论文 [4] 中提出了一个基于影视角色的大规模中文个性化和情感对话数据集 CPED,它包含了与共情和个人特征相关的多源知识(性别、人格特质、情感等)。该研究还强调了说话人个性和情绪在对话式 AI 中的作用。

对于阿里而言,这个领域最早可以追溯到 2020 年其联合南洋理工大学发表在顶会 EMNLP 2020 的论文[5],对基于角色的共情对话模型进行了深入研究。但这篇论文似乎不是今天看到的个性化大模型的同类技术方向。

为了让大模型更好地符合角色的特点,阿里联合团队这次首次提出了 “知识、情感、记忆、性格” 四位一体的个性化大模型方向,相信相关的研究论文应该在路上。

鸟鸟分鸟不仅要听得清、还要说得像

融合个性化大模型能力的对话产品在回答问题时会给出符合身份、性格的答案,提升用户的满意度。鸟鸟分鸟正是联合团队在个性化大模型中训练出来的,用了仅仅 15 天时间完成工程链路。

整个过程分为了大规模语言训练、知识和工具增强、个性化对话增强和人类反馈增强等四步

第一步大规模语言预训练,用到了层次化训练方法,模拟人类学习,从简单知识到专业复杂知识,逐步增加难度。就鸟鸟分鸟而言,联合团队先用大规模语料进行预训练,让大模型学习到足够的世界知识,其中也包含了鸟鸟的公开信息。

但第一步后发现,每天都会有大量新增和过时的知识,因此把所有知识记下来不是好的选择。联合团队选择使用搜索引擎等工具让大模型能力变得更强,比如利用搜索引擎输入在对搜索结果的理解和归纳基础上更准确和及时地回答问题。这样一来,鸟鸟分鸟可以回答最新信息、新闻等。

接着第三步,在知识和工具增强的基础上进行个性化对话增强。这里鸟鸟分鸟既要学习多轮对话和启发式对话,具备了较好的多轮一致性和连贯性;又被赋予了人格标签,联合团队标注了少量的鸟鸟语料来做个性化增强和调优,实现了快速的角色复刻。

最后像不像鸟鸟,人类反馈更直接真实。联合团队利用人类反馈增强做角色强化,检查多个回答候选中哪个更像或不太像鸟鸟、哪个对或不太对。这些反馈和标注对个性化对话大模型进行纠偏,朝着更像鸟鸟的方向正向增强。不过目前联合团队只是基于成员反馈来增强,未来将开放给更多鸟鸟粉丝以收集更多反馈,让鸟鸟分鸟更具真实感。

语音交互是一项系统性工程,对天猫精灵鸟鸟分鸟而言,不仅要听得清,还要说得像。联合团队在训练鸟鸟分鸟之后,着力在听清、音色和文风几个方面提升它的对话式 AI 体验

首先在对话中让鸟鸟分鸟听清人说的话。联合团队采用了猫耳算法,即准确地听声辨位。一方面做回声消除,设备播放产生的回声会对对话有较大干扰。联合团队结合深度学习方法与传统 AEC、多通道立体声消除回声,确保设备只听到人说的话。另一方面是定向拾音,借助设备中的麦克风阵列,在被唤醒时准确识别说话人位置,精准捕捉人声。同时利用降噪消除非人声或远处说话人的声音。

其次让鸟鸟分鸟的音色接近鸟鸟,这要归功于阿里达摩院自研的声学模型。传统人声定制方案复杂,可能需要收集 20 个小时的有效录音数据,并以年为周期定制算法,时间成本太高。传统语音合成的声音机械感也强,一听就是机器人的声音。达摩院的 KAN-TTS 定制方案只需收集 1 个小时的鸟鸟有效录音,从录音到训练完成、模型上线差不多一周时间。呈现出的拟人化声音更自然,接近了鸟鸟的音色。

最后是文本风格。鸟鸟分鸟不仅要在音色上接近鸟鸟,还要沿用她的表达风格。这可以通过人格标签的方式为对话大模型设置角色风格,角色性格开朗则整体给人快乐、乐观的形象。同时在人设描述上进一步约束,比如叫什么、多大了、干什么的、哪里人。联合团队针对鸟鸟分鸟选择了脱口秀演员、内蒙古人、有深度、幽默、内向、90 后等标签词。

另外,在与鸟鸟分鸟的互动中发现,当人说话时,它会发出一些承接词,比如「嗯,我在」、「容我想一想」。当它回答上一个问题到一半时,我们还可以打断它直接问下个问题。整体对话时延非常低,基本接近人与人之间的对话。这都要得益于已经在云上运行很久的双工对话系统,使对话体验有了很大提升。善于倾听、增量对话和较低时延成为这种双工对话系统有别于传统对话的几个显著特征。

整体来看,联合团队致力于四位一体的大模型个性化,从问问题产生 Query、利用 ASR 猫耳算法精确转换成文本、文本又通过通义大模型产生个性化对话回复、最后个性化 TTS 给出个性化音色(鸟鸟)答案。这个大模型能实现知识、情感、记忆和性格四位一体

联合团队还希望鸟鸟分鸟具备长短期记忆,短期要能记住过去三至五轮讲到的话题,并基于这些来回复;长期则是在做好安全隐私共识的基础上,会对用户对话中的偏好、喜欢做什么、吃什么等信息存储下来,在未来对话过程中更加理解用户并产生共情和风格化的对话。

这样看来,鸟鸟分鸟目前似乎是一个专门部署的大模型,而不是一个大模型进行角色扮演。这背后似乎也暗含着面向未来的探索。如果鸟鸟可以有一个自己的大模型,是不是每个家庭也可以独立部署自己的 AIGC 智能服务呢?

参考资料:

[1] Haoyu Song etc. Generating Persona Consistent Dialogues by Exploiting Natural Language Inference

[2] Eric Michael Smithattitude etc. Controlling Style in Generated Dialogu

[3] Atoosa Kasirzadeh etc. In conversation with Artificial Intelligence: aligning language models with human values

[4] Yirong Chen etc. CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI

[5] Peixiang Zhong etc. Towards Persona-Based Empathetic Conversational Models

入门
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

麦克风阵列技术

麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。 早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真(蕴涵),假(矛盾)还是未确定(中立)的任务。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
对话生成技术

对话生成是能经由对话或文字进行交谈的计算机程序任务。能够模拟人类对话,通常以通过图灵测试为评估标准。

达摩院机构

阿里巴巴达摩院(The Academy for Discovery, Adventure, Momentum and Outlook,Alibaba DAMO Academy)成立于2017年10月11日,是一家致力于探索科技未知,以人类愿景为驱动力的研究院,是阿里在全球多点设立的科研机构,立足基础科学、颠覆性技术和应用技术的研究。阿里巴巴达摩院由三大主体组成,一是在全球建设的自主研究中心;二是与高校和研究机构建立的联合实验室;三是全球开放研究项目-阿里巴巴创新研究计划(AIR计划)。

https://damo.alibaba.com/
推荐文章
暂无评论
暂无评论~