9 月 24 日,2021 中关村论坛在京召开。在由科技部战略规划司、高新技术司,北京市科委、中关村管委会,海淀区人民政府主办,北京智源人工智能研究院承办的「人工智能与多学科协同创新」平行论坛上,智源研究院副院长、清华大学教授唐杰展示了「悟道」大模型的最新技术成果与落地应用。
超大规模智能模型是未来人工智能生态的核心,智源研究院于 2020 年 10 月启动超大规模智能模型研发,由副院长唐杰教授领衔,组织了近 120 人的科研团队,逐步推进中文预训练大模型的研究与应用。
2021 年 3 月 20 日,智源研究院发布我国首个超大规模信息智能模型「悟道 1.0」。2021 年 6 月 1 日,智源发布了全球最大的智能模型「悟道 2.0」,模型参数规模达到 1.75 万亿,是 OpenAI 的 GPT-3 模型的 10 倍,打破了之前由谷歌预训练模型创造的 1.6 万亿参数记录,并在多个国际人工智能基准测试榜单的 9 项任务上取得领先,实现了中国在该领域的前沿引领。
几个月后,悟道大模型又迎来了新的成果展示。这次不再只是冷冰冰的炫参数,而着眼于将悟道大模型「用起来」。
悟道大模型的低门槛、高效率和高情商
模型的推出只是一个开始,应用才是终极目标。因此,在这一目标的驱动下,智源研究院通过一系列努力来使悟道大模型更易用,并着力解决各行各业应用场景中的具体问题。唐杰教授依次从「低门槛」、「高效率」和「高情商」三个方面阐释了悟道大模型的最新技术成果。
首先是低门槛,体现在悟道开放平台。1.75 万亿参数的悟道大模型,对于资源有限的中小企业的应用开发而言显然力不从心。因此,降门槛成为了大模型「下放」的必由之路。
智源推出了包括数据服务、在线训练、模型调优、模型评测、在线部署、应用发布等在内的一站式开发及应用平台,支撑了十亿级别模型的在线训练与微调,进一步降低了中小企业基于大模型开发的门槛。在「大模型 + 少量微调」的 AI 开发模式驱动下,这些企业能够解决 AI 应用开发难以规模化、产业化的问题。当前,该平台已开放 7 款不同任务 API,并在持续更新。
其次是高效率,体现在预训练推理工具 BMInf。最近两年,预训练模型的参数量以每年 10 倍的速度迅猛增长,计算效率的瓶颈日渐显现。同时,更快的推理速度对预训练模型具有巨大增益,有助于 NLP 任务实现更好的性能。
此次,智源推出了号称「一卡顶四卡」的低资源快速推理包 BMInf,支持最低配置在 NVIDIA GTX 1060 单卡机上运行百亿大模型,真正实现了小车拉大车。
举例而言,原 CPM2(智源和清华刘知远团队推出的大规模经济高效的预训练语言模型)模型参数需要 40 G 存储空间,半精度处理后仍需 23G。在对原模型进行了基于 INT8 优化的微调后,模型参数只占 10G 存储空间并且性能与原模型相当。基于部分显卡显存不足的情况,推理工具包 BMInf 通过显存和内存间的调度与优化,使得在性能较低的显卡上进行大模型推理成为可能。
此外,继今年 6 月份超越 DALL·E 取得 MS COCO 榜单第一,AI 文图绘画大师 CogView 本次又取得重大升级。CogView2 实现了 4 倍提速和 4 倍清晰,完成了图像生成品质与速度的双重突破。下图右为 CogView 随机生成与 DALL·E 优选作品的画面生成效果比较,孰清孰糊,一目了然。
最后是高情商,体现在最大中文对话模型 EVA。EVA 是目前最大的中文开放域对话预训练模型,由清华大学和智源研究院联合创建,它拥有 28 亿参数,在 WDC-Dialogue 上预训练而成。该数据包含 14 亿个多领域的上文 - 回复对。实验表明 EVA 在自动指标和人工指标上都超越了现有其他的中文预训练对话模型。
智源基于 EVA 模型搭建了开放域对话聊天平台,提供强大的对话交互入口,实现心情聊天、看图说话与诗歌作答等多类趣味对话应用。该对话聊天平台不仅支持人与模型之间的高效对话,更实现了前所未有的大模型群聊功能,从「人与物交流的现在时代」迈入到「物与物交流的人机共融未来时代」。
目前,EVA 模型已经开源上线,用户可以下载 EVA 和 EVA-1.5 (Int 8) 两个版本。
下载主页:https://wudaoai.cn/model/detail/EVA#download
悟道大模型赋能数字人、终端语音助手
除了一系列大模型应用技术创新之外,「悟道」大模型赋能产业的最新应用案例也在本次论坛重磅发布。唐杰教授展示了基于悟道打造的「冬奥手语播报数字人」以及基于大规模预训练模型的生成式知识问答系统「OPPO 小布问答」。
冬奥手语播报数字人
作为构建未来虚拟世界诸多应用的主干,如何创造栩栩如生的虚拟数字人,一直是计算机视觉、计算机图形学与多媒体等 AI 相关学科密切关注的重要研究课题。智源也一直深耕数字人领域的研究与应用,此前 6 月,清华大学迎来了基于悟道 2.0 创建的首位原创虚拟学生——华智冰,引发了广泛的热议。
今日,另一位基于智源悟道大模型打造的冬奥手语播放数字人也隆重亮相。这一「冬奥手语播报数字人系统」是由北京市科委、北京市残联发起,科技冬奥专项支持,智谱 AI、凌云光和北京广播电视台联合打造。项目还得到了北京市残疾人联合会和市残联聋人协会的大力支持。
我们先来一睹她的真容:
据唐杰教授介绍,手语播报数字人可根据收听到的语音,自动实时生成手语手势,让听障人士能够了解新闻播报员播报的信息内容。该数字人将于北京冬奥会期间正式投入应用,提供全流程智能化的数字人手语生成服务,方便听障人士也能收看赛事专题报道,提升他们的社会参与度和幸福感。
这是悟道人工智能大模型在冬奥新场景下,进行智能普惠的关键一步,填补了这一领域的国内外空白。
OPPO 小布问答
手机语音助手,如苹果 Siri、小米小爱同学、OPPO 小布助手等,为用户日常使用带来了极大便利。但是,有些时候,这些助手并不智能,相反可称得上智障,特别是在长尾知识问答任务中。
目前,至少有 1 亿新问题无法通过 AI 语音助手找到答案,这些长尾问题单个问题命中率低、体量大却无法穷尽,非常影响用户体验,而传统人工标注带来的高昂经济与时间成本,令企业难以承受,因此「沉默」成为长尾问题的普遍答案。
针对这一痛点,智源「悟道」大模型与 OPPO 小布助手合作,基于「悟道」大模型创新性地开启生成式回答系统——OPPO 小布问答,全面功能上线后将极大解决行业共通性的长尾问题,单条回答的建设成本降低 99%。
相较智能语音助手传统的「检索式回答」路径,悟道「生成式问答」不再局限于现存语料库的有限内容,借助大模型 + 知识图谱,高效、经济、大规模生成新的问答对,显著提升问答体验,目前已产生亿级 QA 量。
我们可以看一下基于悟道「生成式问答」的 OPPO 小布助手与竞类产品 A 和 B 的问答体验效果比较,可以看到小布助手对于用户的问题给予了相较其他语音助手更直接和精准的回答。据 OPPO 小布技术总监杨振宇介绍,小布问答对于长尾问题的抽验准确率已经达到了 65%。
作为一种线上服务,用户现在可以体验基于小布问答系统的 OPPO 小布助手了,未来还将进一步改进升级。
在接受机器之心的采访时,唐杰教授表示,「悟道大模型与 OPPO 的合作对于推动手机的智能化发展具有两方面的积极意义。一方面,悟道大模型可以让未来的手机助手变得更聪明,不再只是命令式的执行型手机助手;另一方面,手机助手未来会向知识型和交互型发展,用户既可以通过它学习更多知识,也能够令它陪你聊天。」