Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

3分钟视频、100句语音,腾讯云智能推出“自助式”AI数智人生产

“大家好,我是刘兴亮,这是我的首个数智人分身。”

4月25日,在腾讯云智能“数智人媒体沟通会”上,数字经济学者刘兴亮现场展示了他的专属“数智人”,以及由这个“数智分身”输出的短视频“亮三点”。刘兴亮分享称:“这个形象近似真人,表情、唇型匹配自然,包括我的特色口音也模拟得惟妙惟俏的数智人,正是腾讯云智能小样本数智人。未来,不需要搭建拍摄场地,也不用提前化妆彩排,不受空间、时间限制,数智人可以随时随地帮我生成口播视频,解放我的生产力。”

(图:数字经济学者刘兴亮用小样本数智人生产视频)

越来越多的数字人走入各行各业,投入实际应用,但高昂的制作和运营成本让不少企业望而却步。如何让数字人从大企业走向小商户,成为小微企业经营的“可选项”,甚至成为个人创作者的创作工具?过往复杂的训练样本数据采集,导致数字人定制过程长、成本高,一定程度上限制了数字人的快速应用落地。

沟通会上,腾讯云智能小样本数智人生产平台首次对外发布,平台具有训练样本小、生产效率高、自动化生产等特性,可以轻松实现“自助式”数智人生产制作。依托腾讯自研AI能力和技术经验,只需要3分钟真人口播视频、100句语音素材,平台便可通过音频、文本多模态数据输入,实时建模并生成高清人像,在24小时内制作出与真人近似的“数智人”。千元级别的成本,小时级的制作时长,大幅降低数字人使用门槛,腾讯云智能小样本数智人为短视频创作、知识分享、带货直播等场景应用提供了更多可能性。

腾讯云智能数智人产品总经理陈磊表示,腾讯云智能正致力打造自动化的“AI+数智人工厂”,以“产、销、服”一站式平台,实现“自助式”购买、生产和应用数智人。通过开箱即用的数智人服务,腾讯云智能还将广泛开展生态被集成合作,携手合作伙伴将更逼真、更智慧、更高效的数智人应用落地千行百业。

自研小样本数智人驱动技术框架,24小时实现数字分身复刻

腾讯云智能依托自研小样本数智人驱动前沿技术框架,以及基于自监督机制的通用多模态模型,让用户实现提交少数样本数据进行AI训练,例如3分钟真人口播视频、100句语音素材,即可获得与真人形象、语音近似的数智人,生产周期缩短至天级别。千元级的价格,自助式的服务,让数智人成为“用得起”的数字化服务。

陈磊表示,小样本数智人支持半身、全身形象展示,手势动作会根据内容灵活调整,也支持录制背景任意更换,适用于直播带货等更广泛的商用场景。相较于2D真人精品数字人,小样本数智人无需专业影棚录制素材,成本更低;相较于照片生成、仅能呈现面部形态的数字人,小样本数智人可根据文本设计手势,唇动、口型、表情复现真人风格。

(小样本数智人形象、音色接近真人,支持半身、全身形象展示,适用于更广泛的商用场景)

以知识分享口播视频生产为例,小样本数智人可以代医生、律师等专业人士出镜,大大节省视频录制时间。在沟通会现场,浙江树兰医院盛国平博士展示如何用“数字分身”输出医学知识科普视频,在忙碌工作中缓解视频录制压力。按日更计算,如果以“妆发+调试+录制”平均两小时/期来算,一周就可以省下14个小时,一年可节省近800-900小时,相当于省下30-40天的制作时间。

打造数智人aPaaS平台 提供“产、销、服”一体化服务

为了加速数智人服务普及,腾讯云智能还提出自动化“AI+数智人工厂”的方向。开箱即用的数智人生产服务,依托腾讯云TI平台,内置超过10项AI算法能力。未来,无需任何算法、研发经验,只要在平台导入视频、语音训练素材,即可通过“自助式”服务,完成大批量数智人形象、音色定制。

针对数智人运营,腾讯云智能提供播报数智人平台、交互数智人平台服务。播报数智人平台支持通过文字、语音输入快速生成数智人视频;交互数智人平台可打造“超长待机”的数智员工,可定制专属问答库,提供7*24小时人机双向交互服务。同时,也可实现数智人直播服务,直播间7*24小时断档,自由切换真人语音接管,与用户问答互动。

陈磊表示,腾讯云智能专注做厚aPaaS数智人平台,以API接口形式向合作伙伴开放“产、销、服”一体化服务,支持合作伙伴开发更多适用于垂直行业、垂直场景的数智人SaaS服务。目前,已经有数十家合作伙伴依托平台,向行业提供数智人直播SaaS、知识口播SaaS应用,覆盖医疗、传媒、金融多个行业。

作为腾讯云智能的生态集成伙伴,医微讯创始人、CEO潘耿表示,腾讯云智能数智人生产及运营能力的开放,助力我们为客户打造了适用于医疗行业的数字人服务。微媒数字会议CEO天狐表示,微媒将全力和云智能共创数字分身解决方案,形成可持续发展的品牌营销生态,为企业与个人进行IP打造。

“皱纹级”形象还原,“音素级”音色复刻

腾讯自2018年开始投入数智人研发和服务,是国内最早投入数字人领域的企业之一,已发布数百篇相关技术顶会、期刊论文、专利近百份。

在技术解读分享中,腾讯优图实验室研究总监汪铖杰表示,2D小样本技术的背后是3D技术。“小样本数智人从直观上感受是2D视频,背后其实是3D人像在做支撑。从‘文本/音频’信息到‘3D人像驱动’再到‘2D人像视频’的模式,通3D人脸结构的先验信息引入,使数智人口型、表情更到位,让小样本数智人形象实现‘皱纹级’还原。”

另一方面,“小(样本)"的背后是"大”。基于自监督机制的通用多模态模型经过大规模数据训练,可以将语音、文本与人像的表情、口型进行关联。“3分钟”的训练视频正是基于这个模型,学习每个人个性化的发音和口型特征。

汪铖杰表示,虽然小样本数智人使用门槛、成本都大幅降低,但他们希望能“用跑车的性能,服务家用轿车的用户”,通过综合运用多项视觉AI技术,提升小样本数智人品质,其中就包括高精度人像分割、光照优化、人像美化、视线矫正等。他举例称,当录制视频出现较暗、较朦等情况,小样本数智人可以通过光照优化技术进行亮度提升,也能通过高精度的人像美化提升皮肤质感。

在声音复刻方面,基于腾讯自研的新一代小样本音色定制技术,依托深度学习的声学模型及神经网络声码器,小样本数智人改善了传统声学模型语音韵律单一,语调平淡的问题,让语音合成更加精细化。例如,一段文字中哪里该读重音、哪里情绪有变化等因素,都会经由AI训练识别,复现个人音色以及表达风格,最终实现接近本人的自然表达。

此外,通过构建大规模高质量音色数据的预训练基底模型,未来小样本数智人还将支持用户只录制普通话,即可合成英文及方言语音。

目前,腾讯云智能数智人已经覆盖3D写实、3D半写实、3D卡通、2D真人、2D卡通五种形象风格,可实现超细微面部情感表情以及数百种肢体动作,支持形象资产管理、业务服务配置及内容生产相关服务,以满足不同场景下的服务需求。作为数智员工,腾讯云智能数智人已成功“入职”传媒、金融、出行、文旅、政务等多个行业,依托新一代的多模态人机交互系统,同时连接腾讯丰富的内容和服务生态,实现从“数字人”智能升级到“数智人”。

未来,面向数智人应用,腾讯云智能将不断通过CV、TTS、NLP、ASR等多项自研AI技术,推动数智人服务更广泛落地,以“普惠化”服务走入千行百业。

产业
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

微讯机构

微讯(合肥)软件有限公司由位于美国硅谷的Moxtra Inc. 全额投资、由前WebEx开发团队创建,于2012年9月成立于具有浓郁科技创新氛围的合肥市高新产业开发区。公司致力于为消费者和企业提供跨越移动互联网各终端平台的效率工具和协作解决方案,目前在全球范围内的重点合作伙伴已超过二十家。

http://www.moxtra.com/
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
腾讯云智能机构

腾讯云智能是腾讯AI技术落地的商业化产品团队,依托腾讯三大顶级人工智能实验室,打造全球领先的智能云平台及丰富的AI应用,涵盖人脸人体识别、文字识别、图像识别、语音技术、自然语言处理等多个领域。

http://https://intl.cloud.tencent.com/zh/product/facerecognition
推荐文章
暂无评论
暂无评论~