一鸣作者

虎牙LiveTech:不仅仅是智能弹幕,还有开放平台和炫酷AI数字人

说起虎牙,很多人可能会想到他们将智能弹幕技术用于直播。但是在今年的LiveTech发布会上,虎牙还露了好几手。本次发布会上,虎牙推出了基于小程序和二十多项AI及直播技术能力为核心的开放平台,同时也发布了AI数字人和相关开放平台HERO。这些举动都在说明,虎牙意图用新技术改变行业生态。

昨日,虎牙LiveTech发布会在广州举行。发布会上,虎牙发布了国内第一个和直播有关的技术平台,公开了其在AI方面的技术能力集成的最新成果—AI数字人。除了智能弹幕这样的AI技术,虎牙通过发布会,无疑展示了自身用技术驱动直播行业发展升级的意图和能力。

二十多项AI等能力开放,虎牙开放平台发布 

虎牙技术开放平台是发布会的首要内容。这是国内首个以直播为核心的开放平台。在开放平台上,开发者可以使用各类API,SDK和其他工具,从而开发出和直播有关的小程序。总体而言,平台内容涵括核心的直播技术、开发工具、数据服务等基础设施,以及市场推广、运营活动、应用商店等商业配套服务。  

开发者可以使用哪些开放平台上的技术呢?据介绍,开放平台上提供了多项直播相关的前后端、AI、通讯连接、程序测试和打包等方面的工具和服务。以AI方面的能力为例,虎牙开放平台提供的AI技术能力包括但不限于:图像识别、动作捕捉、人脸识别、视频理解、语音识别、语音合成等。这些技术都以实际的应用接口形式呈现。目前这些技术已经在虎牙的直播上使用,如使用图像识别相关的技术,让主播的身体轮廓更好地融合在直播画面中。以及使用图像生成方面的技术,将特定人物的脸和主播脸结合,并实现实时的表情变换等。而开发者现在也可以利用这些技术,不需要关注底层实现和直播技术上的问题,而去开发新的应用。

当开发者有了这些技术后,只要根据平台的使用流程,就可以完成相关应用的构建、测试、打包和发布流程。最终,发布的应用会在平台提供的小程序商店中提供给主播和用户购买,从而实现开发者的盈利。在整个过程中,开发者关注用户的需求和开发,直播技术和其他基础服务则由平台提供。

为了让开放平台的能力和开发者结合,虎牙提出了以小程序为载体的方式。具体而言,在拥有了这些技术能力之后,开发者就可以在虎牙的平台上进行小程序的开发,并让这些小程序给主播的直播内容和形式带来新的创新。例如,主播可使用陪伴宠物这一小程序,让虚拟的角色出现在直播中。这一虚拟形象可以捕捉主播的语音和动作,并作出相应的反馈(如跳舞)。  

此外,小程序还可以和现实中的物理硬件,甚至是IoT设备打通,实现观众用小程序发指令,对主播的直播进行控制。比如说,一些农牧产品生产商可以打开直播,让观众看到饲养家禽的过程。感兴趣的观众可以发出指令,让养鸡场机器喂鸡。此外,还有观众和主播互动的游戏等。

直播养鸡时,观众可以和被直播的养鸡场互动,甚至在直播间操作喂食。

这一案例正是发布会上虎牙开放平台通过小程序接入不同领域的主播和开发者,让外部开发技术和平台上的众多主播需求结合,从而实现新的应用创新。 

小程序开发后,开发者需要考虑在不同环境和终端下的运行问题。为了让开发者能够实现一次开发后的跨终端运行,除了技术能力外,虎牙提供了相关,能够实现多个运行环境下的「一键测试」以及最终开发成果的「一键打包」。 

目前,虎牙已将开放平台提供给开发者,在未来三年,虎牙宣布将会投入十亿元人民币的资源,启动星火计划,用于培育生态。 

AI数字人亮眼,实时模拟真人表情动作 

在开放平台之后,虎牙发布了另一项重要成果,名为AI数字人。这是一个通过模拟真人主播的方式,实现主播在不同时空,背景下的新直播创意。具体而言,虚拟数字主播是模拟了真人主播的形象,但是本身是通过AI构建的。构建AI数字人的过程分为建模、驱动和渲染三个步骤。

首先,机器需要多模态的数据输入,通过输入真人的面部表情,声音等信息,由模型构建起一个带有标准骨骼和肌肉的虚拟形象来。接着,使用相关算法学习这些特征,并在其中赋予AI数字人微表情。最后在渲染阶段,让AI数字人在实时光解算和实时AR渲染的基础上,最终实现动态的形象构建。

在技术层面上,AI数字人使用了多种技术,包括3D重建、人脸结构化、动作迁移和实时渲染、AR融合等。在建模方面,虎牙扫描了2000万面超高精度拓扑的模型,通过肌肉和骨骼绑定后,可驱动的表情面数超过4万个。在肢体上骨骼动作支持超过70个自由度,可还原日常动作及跳舞等才艺。

 在发布会演示上,AI数字人“晚玉”可以根据需要实时更换服装,在渲染速度和质量上都达到了一定的效果。此外,AI数字人还应用了语音合成和音画匹配方面的技术,使得AI数字人可以合成真人声音,声音也能够匹配口型,表情和动作。

推出AI数字人,无疑是虎牙在直播内容上的新尝试和探索。据介绍,AI数字人拓展了真人主播的活动范围和完成的工作。例如,真人主播无法完成的任务和工作(如极限运动等)可以通过AI数字人的模拟完成。而AI数字人可以发展出和真人不一样的外貌,性格,让人们看到真人主播不为人知的另一面。这充实现有的直播内容,使得直播娱乐变得更有趣。

 除了真人形象外,AI数字人的技术还可以迁移到构建其他的角色中去。例如,虎牙和腾讯合作,构建出虚拟的人物形象。除此之外,虎牙宣布,将会开放这一技术能力,形成HERO平台,未来让众多主播都可以定制自己的虚拟形象,也让更多的开发者和企业加入到相关的工作中。 

 而人脸识别图像生成方面的AI技术,也在虎牙的其他一些应用中得到呈现。例如,在发布会展台上,虎牙展示了其在人脸识别和动态图像生成方面的研究成果。观众可坐在摄像头前,让机器捕捉其面部信息,然后将其脸部特征和其他名人融合,最终生成带有新风格的面孔。生成的面部是实时动态的,还可以根据用户表情的变化而发生变化。这些例子,都说明了虎牙在计算机视觉方面的研究能力。

直播新业态,虎牙积极探索

在发布会上,虎牙CEO董荣杰表达了他对未来直播行业的看法和理解。 

他认为,直播目前仍仍处于发展阶段,当5G时代到来,没有流量和带宽限制的人们会更加需要直播,因此,行业仍有很大的发展空间。

在另一方面,直播领域,特别是主播的需求依然得不到满足,通过技术驱动直播内容的革新,无疑是虎牙在AI时代的到来所做的努力。而最终,虎牙希望能够将线下内容更好地扩展到线上直播中,这就需要开发者能够加入其中,一起打造一个繁荣的直播生态体系。

入门SDKAPI开放平台虎牙直播
相关数据
人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

语音合成技术

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

推荐文章
暂无评论
暂无评论~