Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

杜伟报道

冬奥手语播报数字人、语音助手问答体验升级,1.75万亿参数的大模型「悟道」开始落地了

这一次,「悟道」变得更好用,带来一系列低门槛、高效率的技术发布,并以人工智能大模型技术,助力智能终端 AI 体验升级。此外,基于悟道大模型的冬奥手语播报数字人崭新亮相,将为听障人士提供全流程智能化的数字人手语生成服务。

9 月 24 日,2021 中关村论坛在京召开。在由科技部战略规划司、高新技术司,北京市科委、中关村管委会,海淀区人民政府主办,北京智源人工智能研究院承办的「人工智能与多学科协同创新」平行论坛上,智源研究院副院长、清华大学教授唐杰展示了「悟道」大模型的最新技术成果与落地应用。

超大规模智能模型是未来人工智能生态的核心,智源研究院于 2020 年 10 月启动超大规模智能模型研发,由副院长唐杰教授领衔,组织了近 120 人的科研团队,逐步推进中文预训练大模型的研究与应用。

2021 年 3 月 20 日,智源研究院发布我国首个超大规模信息智能模型「悟道 1.0」。2021 年 6 月 1 日,智源发布了全球最大的智能模型「悟道 2.0」,模型参数规模达到 1.75 万亿,是 OpenAI 的 GPT-3 模型的 10 倍,打破了之前由谷歌预训练模型创造的 1.6 万亿参数记录,并在多个国际人工智能基准测试榜单的 9 项任务上取得领先,实现了中国在该领域的前沿引领。

几个月后,悟道大模型又迎来了新的成果展示。这次不再只是冷冰冰的炫参数,而着眼于将悟道大模型「用起来」。

悟道大模型的低门槛、高效率和高情商

模型的推出只是一个开始,应用才是终极目标。因此,在这一目标的驱动下,智源研究院通过一系列努力来使悟道大模型更易用,并着力解决各行各业应用场景中的具体问题。唐杰教授依次从「低门槛」、「高效率」和「高情商」三个方面阐释了悟道大模型的最新技术成果。

首先是低门槛,体现在悟道开放平台。1.75 万亿参数的悟道大模型,对于资源有限的中小企业的应用开发而言显然力不从心。因此,降门槛成为了大模型「下放」的必由之路。

智源推出了包括数据服务、在线训练、模型调优、模型评测、在线部署、应用发布等在内的一站式开发及应用平台,支撑了十亿级别模型的在线训练与微调,进一步降低了中小企业基于大模型开发的门槛。在「大模型 + 少量微调」的 AI 开发模式驱动下,这些企业能够解决 AI 应用开发难以规模化、产业化的问题。当前,该平台已开放 7 款不同任务 API,并在持续更新。

其次是高效率,体现在预训练推理工具 BMInf。最近两年,预训练模型的参数量以每年 10 倍的速度迅猛增长,计算效率的瓶颈日渐显现。同时,更快的推理速度对预训练模型具有巨大增益,有助于 NLP 任务实现更好的性能。

此次,智源推出了号称「一卡顶四卡」的低资源快速推理包 BMInf,支持最低配置在 NVIDIA GTX 1060 单卡机上运行百亿大模型,真正实现了小车拉大车。

举例而言,原 CPM2(智源和清华刘知远团队推出的大规模经济高效的预训练语言模型)模型参数需要 40 G 存储空间,半精度处理后仍需 23G。在对原模型进行了基于 INT8 优化的微调后,模型参数只占 10G 存储空间并且性能与原模型相当。基于部分显卡显存不足的情况,推理工具包 BMInf 通过显存和内存间的调度与优化,使得在性能较低的显卡上进行大模型推理成为可能。

此外,继今年 6 月份超越 DALL·E 取得 MS COCO 榜单第一,AI 文图绘画大师 CogView 本次又取得重大升级。CogView2 实现了 4 倍提速和 4 倍清晰,完成了图像生成品质与速度的双重突破。下图右为 CogView 随机生成与 DALL·E 优选作品的画面生成效果比较,孰清孰糊,一目了然。

最后是高情商,体现在最大中文对话模型 EVA。EVA 是目前最大的中文开放域对话预训练模型,由清华大学和智源研究院联合创建,它拥有 28 亿参数,在 WDC-Dialogue 上预训练而成。该数据包含 14 亿个多领域的上文 - 回复对。实验表明 EVA 在自动指标和人工指标上都超越了现有其他的中文预训练对话模型。

智源基于 EVA 模型搭建了开放域对话聊天平台,提供强大的对话交互入口,实现心情聊天、看图说话与诗歌作答等多类趣味对话应用。该对话聊天平台不仅支持人与模型之间的高效对话,更实现了前所未有的大模型群聊功能,从「人与物交流的现在时代」迈入到「物与物交流的人机共融未来时代」。

目前,EVA 模型已经开源上线,用户可以下载 EVA 和 EVA-1.5 (Int 8) 两个版本。

下载主页:https://wudaoai.cn/model/detail/EVA#download

悟道大模型赋能数字人、终端语音助手

除了一系列大模型应用技术创新之外,「悟道」大模型赋能产业的最新应用案例也在本次论坛重磅发布。唐杰教授展示了基于悟道打造的「冬奥手语播报数字人」以及基于大规模预训练模型的生成式知识问答系统OPPO 小布问答」。

冬奥手语播报数字人

作为构建未来虚拟世界诸多应用的主干,如何创造栩栩如生的虚拟数字人,一直是计算机视觉计算机图形学与多媒体等 AI 相关学科密切关注的重要研究课题。智源也一直深耕数字人领域的研究与应用,此前 6 月,清华大学迎来了基于悟道 2.0 创建的首位原创虚拟学生——华智冰,引发了广泛的热议。

今日,另一位基于智源悟道大模型打造的冬奥手语播放数字人也隆重亮相。这一「冬奥手语播报数字人系统」是由北京市科委、北京市残联发起,科技冬奥专项支持,智谱 AI、凌云光和北京广播电视台联合打造。项目还得到了北京市残疾人联合会和市残联聋人协会的大力支持。

我们先来一睹她的真容:

唐杰教授介绍,手语播报数字人可根据收听到的语音,自动实时生成手语手势,让听障人士能够了解新闻播报员播报的信息内容。该数字人将于北京冬奥会期间正式投入应用,提供全流程智能化的数字人手语生成服务,方便听障人士也能收看赛事专题报道,提升他们的社会参与度和幸福感。

这是悟道人工智能大模型在冬奥新场景下,进行智能普惠的关键一步,填补了这一领域的国内外空白。

OPPO 小布问答

手机语音助手,如苹果 Siri、小米小爱同学、OPPO 小布助手等,为用户日常使用带来了极大便利。但是,有些时候,这些助手并不智能,相反可称得上智障,特别是在长尾知识问答任务中。

目前,至少有 1 亿新问题无法通过 AI 语音助手找到答案,这些长尾问题单个问题命中率低、体量大却无法穷尽,非常影响用户体验,而传统人工标注带来的高昂经济与时间成本,令企业难以承受,因此「沉默」成为长尾问题的普遍答案。

针对这一痛点,智源「悟道」大模型与 OPPO 小布助手合作,基于「悟道」大模型创新性地开启生成式回答系统——OPPO 小布问答,全面功能上线后将极大解决行业共通性的长尾问题,单条回答的建设成本降低 99%。

相较智能语音助手传统的「检索式回答」路径,悟道「生成式问答」不再局限于现存语料库的有限内容,借助大模型 + 知识图谱,高效、经济、大规模生成新的问答对,显著提升问答体验,目前已产生亿级 QA 量。

我们可以看一下基于悟道「生成式问答」的 OPPO 小布助手与竞类产品 A 和 B 的问答体验效果比较,可以看到小布助手对于用户的问题给予了相较其他语音助手更直接和精准的回答。据 OPPO 小布技术总监杨振宇介绍,小布问答对于长尾问题的抽验准确率已经达到了 65%。

作为一种线上服务,用户现在可以体验基于小布问答系统OPPO 小布助手了,未来还将进一步改进升级。

在接受机器之心的采访时,唐杰教授表示,「悟道大模型与 OPPO 的合作对于推动手机的智能化发展具有两方面的积极意义。一方面,悟道大模型可以让未来的手机助手变得更聪明,不再只是命令式的执行型手机助手;另一方面,手机助手未来会向知识型和交互型发展,用户既可以通过它学习更多知识,也能够令它陪你聊天。」

产业北京智源研究院悟道大模型
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名,该系统于2006年3月推出,目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

刘知远人物

刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011 年获得清华大学博士学位,已在 ACL、IJCAI、AAAI 等人工智能领域的著名国际期刊和会议发表相关论文 60 余篇,Google Scholar 统计引用超过 2100 次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel 青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI 期刊 Frontiers of Computer Science 青年编委,ACL、COLING、IJCNLP 领域主席。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

OPPO机构

OPPO,成立于2004年,是一家全球性的智能终端和移动互联网公司,致力于为客户提供最先进和最精致的智能手机、高端影音设备和移动互联网产品与服务,业务覆盖中国、美国、欧洲、东南亚等市场。

www.oppo.cn
推荐文章
暂无评论
暂无评论~