Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

数字人赛道热度正高,AI技术如何创造不一样的“灵魂”?

当前,数字人理论和技术日益成熟,应用范围不断扩大,相应的商业价值也不断显现。

近日,北京市经信局正式对外发布《北京市促进数字人产业创新发展行动计划(2022—2025年)》(简称《计划》)。《计划》是国内出台的首个数字人产业专项支持政策,从构建数字人全链条技术体系、培育标杆应用项目、优化数字人产业生态等方面为支持数字人产业发展提供了指引。

从中短期视角看,数字人相关技术逐步落地,应用场景持续拓宽,或为元宇宙概念下技术、内容及产业融合升级的初步尝试;长期视角看,当技术进展能够实现数字人的低成本量产、个性化定制及全智能交互,数字人有望推广至多行业应用,以数字分身、AI共生等形式,成为连接虚拟世界与现实世界的入口。

1、数字“人”潮汹涌

数字人(又名虚拟人、虚拟形象),是存在于虚拟世界中具备多重人类特质的数字化人物。数字人以技术为底层驱动力,依托CG建模+真人或AI驱动、多模态技术等核心技术,数字人被赋予人的形象、声音、思想和交互特性。

鉴于数字人拟人化的外在与智能化的内在互动特质,数字人被普遍认为有两种不同形态:第一种是自然人在虚拟空间中的“数字分身”,即自然人依托智能穿戴设备以“另一个自己”在虚拟空间中进行各种活动;第二种是技术公司在虚拟空间中根据算法、渲染等技术合成出的全新的“数字人”。

在商汤科技联合CARA共同发布的AI数字人白皮书中,从生产自动化和拟人化两个维度,将数字人的进化历程划分为五个阶段。从L1~L3,数字人依然停留在“有颜无智”的状态。只有达到L4级别以上的数字人才能真正的帮助产业解决“人”的问题,并基于生产效率跃升进而实现规模化落地和推广。

与其他数字人相比,L4级别以上的数字人,不仅被赋予了智慧的“大脑”,可以独立的,与人进行实时的智能化交互,其生产效率也有了大幅的提升,被称之为“AI数字人”。

如今,AI数字人的发展仍处于早期阶段,更多的是在垂直领域为人们提供智能化服务,在某些“超纲”交互仍需要真人干预。到了L5级别,AI数字人将会向通用智能型方向发展。到了这个阶段,数字人可以实现完全的智能化交互。

从内外部环境来看,AI数字人的爆发自有其逻辑。首先,元宇宙概念的爆火,让被视为关键要素的数字人也乘势而起,逐渐进入了发展新阶段。其次,底层技术的成熟,为AI数字人的落地应用提供了基础。此外,资本市场的看好,同样为AI数字人行业的发展提供了一臂之力。

据IDC发布的《中国AI数字人市场现状与机会分析,2022》报告显示,中国AI数字人市场规模呈现高速增长趋势,预计到2026年将达到102.4亿元人民币。

《行动计划》提出到2025年,北京数字人产业规模突破500亿元,培育1-2家营收超50亿元的头部数字人企业、10家营收超10亿元的重点数字人企业;建成10家校企共建实验室和企业技术创新中心;打造5家以上共性技术平台;培育20个数字人应用标杆项目;建成2家以上特色数字人园区和基地等目标。

2、AI打造“智慧”大脑

事实上,数字人的发展历史,亦是CG、动作捕捉、人工智能合成等技术的发展史和变迁史。

2012年,深度学习技术进入大众视野,使数字人产业从费用高企且耗时较长的CG制作开始逐步向AI制作过渡,大幅降低了数字人的制作成本并显著提升了制作效率,激发数字人产业蓬勃生长;

2018年,大模型路线横空出世,GPT、BERT等一系列代表性大模型显著提升了AI的通用性和实用性,能够赋予数字人更高阶的理解、感知、决策能力,使他们在拥有类人外表的同时,和人类产生深度互动和情感连接,推动数字人产业发展驶入快车道。

其中,NLP是实现智能化交互的核心。NLP目的即是计算机系统能够和人类进行自然语言交互,将虚拟世界的人和物赋予智慧,从“能理解”到“会思考”到“有温度”。从深度神经网络(DNN)、递归神经网络(RNN、LSTM)发展到卷积神经网络(CNN),AI技术的变革深刻影响NLP的智能化落地进程。尤其是Transformer路线蓬勃发展为NLP带来里程碑式技术飞跃,多模态、开放域语音交互已成为现实。

2021年Omniverse Avatar(阿凡达平台)发布,英伟达引入更深层次的AI技术布局元宇宙。Omniverse Avatar将英伟达旗下语音AI、自然语言理解、推荐引擎、计算机视觉和面部动画等AI算法层技术加入数字人生态建设,从而实现结合英伟达基础图形、模拟和AI技术的复杂应用程序,人工智能助手在客户支持(Tokkio)、车辆智能服务(NVIDIA DRIVE Concierge)、视频会议(Maxine)等方向落地。

Omniverse Avatar的关键要素均为AI驱动,包括:语音识别NVIDIA Riva软件开发工具包、自然语言理解Megatron大型语言模型、推荐引擎NVIDIA Merlin系统、计算机视觉NVIDIA Metropolis框架和数字人动画NVIDIA Video2Face和Audio2Face等技术。英伟达布局数字人的功能性核心在于交互,因此,以理解与自然表达导向的NLP技术为AI赋能的布局核心。

虽然NLP是人工智能领域发展历史较为丰富的技术之一,但由于自然语言的复杂性和多样性,NLP技术成熟度成为了目前人机交互落地及场景层面的瓶颈。

3、商业模式持续演进

虚拟“邓丽君”与周深同台演唱,跨时空的歌声相融下,几代人回忆交织;数字宇航员小诤自由穿梭于各大空间站,承担中国重要航天工程的相关报道任务;数字人博主AYAYI一夜爆红,与娇兰、保时捷等众多品牌达成商业合作;万科首位数字人员工崔筱盼拿下最佳新人奖……

在技术迭代与元宇宙大爆炸的时代背景下,数字人已悄然走进我们的生活,为文化、服务、金融等各行各业带来了新的想象空间。

如今,越来越多企业都积极布局了相关领域。国内头部游戏厂商已具有数字人自动生成技术沉淀,游戏捏脸成熟简便。在对于游戏内虚拟角色的设定以外,厂商亦重视玩家自身虚拟化身的打造。

网易伏羲人工智能实验室的智能捏脸项目,于2018年底在端游《逆水寒》中上线。这也是全球首次在MMORPG游戏中实现基于单张照片的智能捏脸玩法。系统使用大量的随机参数来模拟捏脸,训练AI学习捏脸的过程。玩家上传照片以后,系统就会把照片拆解成AI理解的形式,比如五官的位置、大小,妆容颜色等特征,AI就会根据这些信息,对这些特征做复原。

在科大讯飞2022云年会上,科大讯飞宣布启动讯飞超脑2030计划。该计划的第一阶段目标便是推出专业虚拟人家族和可养成的机器宠物,且预计将在未来两年内实现。未来,科大讯飞希望能够通过虚拟人技术,或许可解决各种需求,让虚拟人带有更多的人格化特征。

字节跳动不仅全资入股拥有虚拟偶像团体A-SOUL著作权的公司,还投资了杭州李未可科技有限公司,后者推出了虚拟数字人IP形象“李未可”。

各路玩家在数字人领域不断投资布局,从侧面印证了AI数字人已经进入了新的发展阶段,但是其所面临的挑战却依旧严峻。

一方面,业界对于人类在虚拟世界中的精神和行为仍在持续探讨当中,人们使用虚拟分身进行社交、生产等活动时的行为准则和道德标准尚未建立,

另一方面,针对虚拟人行业的法律法规尚待完善,虚拟人IP与真人驱动者之间的法律主体界定尚不明确,若出现违法违规行为,或带来责任主体模糊的问题。同时,虚拟人相关从业者与虚拟人IP之间的关联以及利益分配等问题需要更加完善的法律制度和行业准则进行规范。

资料来源:

https://mp.weixin.qq.com/s/H6LFzFh68OiRLa84HwD47w

https://mp.weixin.qq.com/s/15OaWK5nAnyRrvDpsXnZlg

https://mp.weixin.qq.com/s/-UXVp-iJDXyApwnoDsZWZQ

https://mp.weixin.qq.com/s/ib07_D8qYpbYMnyzMT6EKw

https://mp.weixin.qq.com/s/n3RJCy5t8bNlattDURO8pw

https://mp.weixin.qq.com/s/noQY8qrSMxCVoX4kCUuHKw

https://mp.weixin.qq.com/s/9Vio64LxHVNFOoc9vUpNyg

https://mp.weixin.qq.com/s/O1U4oUEYS4Vj9diCZ3Ma4g

https://mp.weixin.qq.com/s/s9c3_m-eMJuAK6CrgrSPhw

产业
暂无评论
暂无评论~