Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

数字人超生潮来袭,我们到底需要怎样的数字人?

这次,数字人走进 APP,和我们直接对话。


最近,百度 APP 上线了国内第一个可在 APP 端内与用户交互的明星数字人,以明星龚俊为 IP,并支持语音搜索和对话互动。

今年,随着元宇宙概念大热,随之而来的是潮水般涌现的各种数字人,从时尚娱乐到文化商业,数字人全面开花。

它们依托差异化特质在各类细分赛道中大显身手。例如以图片为主时尚流数字人 AYAYI,虽然做不到高质量直播,但已经实现商业变现;而初音未来、绊爱等歌舞流数字人的兴起则掀起一波虚拟偶像浪潮。

随着互联网大厂入局,更是出现了很多引发热议的数字人,比如腾讯游戏 NExT Studios 联合新华社打造的数字航天员小诤、华为首位虚拟数字人云笙、百度智能云打造的冬奥 AI 手语主播。

可以看到,现阶段数字人一方面趋向了虚拟主持、虚拟偶像、数字人明星等泛娱乐场景,另一方面是互联网巨头发力的金融、文旅、教育等实用场景。

如今,由于依托建模、驱动、渲染技术的数字人行业已经形成完善的产业链,数字人成为新风口,在游戏、影视、传媒、直播、金融、教育、医疗等领域不断涌现。

数字人超生潮来袭,一个不可回避的问题是,这些数字人之间有什么区别?什么才是真正的数字人?近乎逼真的皮囊和外壳下,它们是否具备图灵完备的能力?当技术不断进化,我们到底需要怎样的数字人?

超生潮来袭,数字人「向左还是向右」

关于数字人是什么,目前并无统一的定义。我们尝试从技术和应用场景上聚焦,建立较为清晰的共识,以便数字人行业更好地发展。

中国人工智能产业发展联盟总体组联合中关村数智人工智能产业联盟数字人工作委员会发布的《2020 年虚拟数字人发展白皮书》中曾提到:虚拟数字人指具有数字化外形的虚拟人物,需要具备三个主要特征:拥有人的外观、人的行为和人的思想。

『数字人简单说就是一个计算机表达的人。目前行业内大多数数字人基本是个玩偶,虽然它们在外形和动画等方面已经做得非常好了。但还应看到,他们在人设和行为方面,也就是它的大脑,目前还严重依赖人的设定。』一位业界知名专家向机器之心表示。

实际上,现阶段的数字人更多的是计算机生成的、具有三维形象的人物 IP,停留在逼真的外壳阶段,在技术和交互上仍有很大进步空间。以目前的大多数时尚数字人为例,他们的存在形式仍以图片为主,主要原因是视频呈现极难控制,且制作成本极其高昂,更不要说实现拟人化的动态直播和对话。

上海科技大学信息科学与技术学院执行院长虞晶怡教授在接受机器之心采访时也表示,可以围绕着四点来看待数字人,即「能感知感受、会思考交流、可进化演变和有温度情感」。

简言之,一个相对成熟的数字人,除了拥有真实漂亮的类人皮囊,还需要实现人机交互,即习得如何与人对话、拥有拟人化的表现,建立与真实人类的关系。

目前,数字人从发展上看,有增强现实和削减现实两个趋势。虞晶怡认为,与传统的社交网络相比,新型的数字人产品应当致力于全面「增强现实」,即增强现实世界里人与人之间互信互助的交往,而不是「削减现实」,即通过贴标签的方式简化、模式化、分化人群,导致削减人与人之间的互信互助。

虞晶怡所说的「削减现实」与刘慈欣曾对元宇宙未来表达的悲观不谋而合:人类面前有两条路。一条是向外,通往星辰大海;一条向内,通往虚拟现实

如果一味地削减现实,沉溺在虚拟世界中,刘慈欣认为,那将是一条自娱自乐的死路。未来的元宇宙将变成极具诱惑、高度致幻的「精神鸦片」。在《时间移民》中,刘慈欣就写道,无形世界的生活如同毒品一样,一旦经历过那生活,谁也无法再回到有行世界。

向左走还是向右走,数字人的方向选择虽然由总体需求来决定,但能感知感受、会思考交流、可进化演变和有温度情感的数字人技术,将丰富完善现实世界的体验。

虞晶怡教授也特别强调:数字人不是为了让人脱离真实世界,而是为了增加人与真实世界、人与人的交流。它应该使人类更懂得多元与互信,而非割裂的二元。

数字人往何处走?其实国内一些互联网大厂比如百度很早就在向实用型数字人方向探索,让数字人更智能化更服务化。

早在 2019 年百度就开始布局数字人业务,携手央视推出的时事 AI 主播「小智」、数字人虚拟小编「小 C」、AI 虚拟主持「晓央」和冬奥 AI 手语主播。腾讯华为最近也动作频频,比如腾讯此前发布了涵盖金融、文旅和智能家居等个领域的数智人产品矩阵;华为在 HDC2021 上也首次采用数字人全程手语直播。

数字人如何脱虚向实?

今年 8 月 18 日的百度世界大会上,百度推出了以明星 IP 为主体打造的龚俊 AI 数字人,现场,龚俊数字人唱跳着周杰伦的《夜曲》片段登场。

图片

它动作流畅,声音口型也几乎没有偏差,这一切都归功于百度深耕已久的数字人技术支撑。外形上,采用 4D 扫描技术捕捉真人说话及面部表情细微变化,超写实地还原了龚俊真人;声音上,依托强大的 TTS(Text to Speech)技术,龚俊数字人唱歌与说话的声音无限接近于原声,营造真实感

但如果只是如此,龚俊数字人似乎与其他泛娱乐的虚拟偶像并无二致。那么如何为数字人找到实用内核,更有温度和情感地与人交流?

11 月 25 日,龚俊数字人入端百度 APP,成为国内首个可以在 APP 端和人真正互动的超写实数字人,而端内服务与场景也为龚俊数字人的实用功能提供了契合的土壤。

图片

图片

用户只需在百度 APP「语音设置」中的「语音搜索助理」中选定龚俊数字人,然后点击主页面下方的小话筒标志,即可唤出龚俊数字人,实现面对面的实时互动。

一方面,龚俊数字人实现了便捷的端功能控制,实现开 / 关夜间模式、打开书架、清理缓存、影视小说网站等的一语直达。

图片

另一方面,还能够满足用户多场景搜索需求,比如「明天天气怎么样」,数字人随即语音播报明天天气情况,并给出穿衣建议。

图片

智能搜索一直是百度 APP 的标志性功能。从语音搜索到视觉搜索百度 APP 不仅致力于连接人与信息,还深入探索连接人与服务、人与人,未来将更便捷地连接万物。

龚俊数字人入端百度 APP,正是对搜索拟人化的具体实践,由以往度晓晓这类二次元卡通虚拟助手升级到了明星 IP 类超写实数字人助理,不仅声音与外形的高度拟人化,还支持近乎真人般的互动与服务,为用户带来沉浸感。

未来,百度还将提供更加智能化的数字人服务,数字人将被支持设置到手机桌面,最终在端内外与用户形成全方位的交互生态,实现在端外也能实时唤起数字人智能生活助理。

随着数字人应用场景越来越多,百度的入局势在必行。从 2019 年介入数字人业务以来,百度就已在技术、产品、市场和生态等方面积累了大量的经验和优势。

除了在数字人动作声音等技术处于领先水平,百度还拥有数 10 项数字人领域核心专利,更有从项目规划、资产监制、工程开发到客户服务的数字人全流程服务能力。

图片

在产品生态层面,百度拥有直播、短视频等多种形态的支持以及高达 6.07 亿的月活用户基础,端内也可以联动好看视频、搜索、百科和小程序进行全方位内容推荐。

在运营层面,百度具有成功打造虚拟 IP 的经验,如多次登上百度、微博和抖音热搜的虚拟 IP 张小寒。百度更拥有强大的虚拟 IP 矩阵资产和孵化 IP 的能力,如虚拟小编小 C、虚拟主持人晓央等。

正是依托这些优势,百度 APP 才将数字人放入端内,并在这片「土壤」中打磨数字人的交互与响应能力,为以后端内外更智能化的功能的释放「打好了前站」。

此次,龚俊数字人入端百度 APP,通过无障碍的交流互动,让用户真切地感知到了数字人的实用价值。数字人也不再虚无缥缈,真正脱虚向实,成为了现实世界你我皆可触及的伙伴。

参考链接:
https://news.mydrivers.com/1/777/777429.htm
https://article.pchome.net/content-2137050.html
http://www.abi.com.cn/news/htmfiles/2021-8/246033.shtml
https://finance.sina.com.cn/tech/2021-08-04/doc-ikqcfncc0906933.shtml
http://pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2020/12/19/cdb07e97-aa5f-4f6a-bf9a-7c001bb43b26.pdf(2020年虚拟数字人发展白皮书)
https://cloud.baidu.com/news/detail.html?type=news&newsId=882cc72e-e1fd-4a7e-a426-9e2b1f43cfc6&status=ONLINE
工程实时数字人百度
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

视觉搜索技术

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
新华社机构

新华社是中国共产党早期创建的重要宣传舆论机构,从诞生起就在党中央的直接领导下开展工作,肩负党和人民赋予的神圣使命,发挥喉舌、耳目、智库和信息总汇作用,为党团结带领全国各族人民取得革命、建设和改革的重大胜利作出了重要贡献。

官网,http://www.xinhuanet.com
推荐文章
暂无评论
暂无评论~