Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

对话搜狗陈伟:AI合成主播下一步将如何进化?

2018年底,在第五届世界互联网大会上,“克隆”于真人主播邱浩的全球首个AI合成男主播“首秀”,由新华社联合搜狗发布,很快在全球范围内引起热议。

陈伟,搜狗语音交互技术中心高级总监,同时也是新华社AI主播项目的负责人。他表示,从去年11月到现在,新华社工作的两位AI主播已经播报了几千余条新闻,没有出现过失误。

今年2月19日,男主播升级成为站立式AI合成主播“新小浩”,站立式“新小浩”不仅能坐着播报新闻,还能站起来,带着手势、姿态等多种肢体动作,更接近于真人。与此同时,双方还推出了首个AI合成女主播“新小萌”。

在新华社,基于两位真实主播的声音、表情等真实数据生成模型,工作人员仅需要输入新闻稿,就可以让AI形象自动根据文字播报。并且,无需进行二次视频编辑,AI主播将自动识别语义并配上对应音调及表情。

“我们提供的系统,新华社只要每天在想要播报的新闻,过几秒钟生成一个完整的视频,中文、英文不同类型的新闻视频就可以马上出来。”陈伟表示。我们看到,AI主播的能力在不断进化,2月发布的“新小浩”开始加入肢体动作,让主播的表达方式更加多元化。

AI合成主播来自于搜狗AI分身项目的落地,基于多种模态识别融合的技术,包括语音、手写、唇语等维度的识别和模拟,仅需数个小时的视频资料就可以合成一个比较逼真的真人形象。

 “逼真度”是衡量AI主播效果的一个重要指标。陈伟向机器之心表示,在初期,团队采用主观的方式来衡量AI分身的真实度,最近逐渐考虑采用一些客观标准,比如与真人视频每一帧画面进行比对。

目前,AI主播已经能够实现语音和唇部动作的同步。陈伟表示,更进一步,客户已经提出微表情等更细节层面的交互,比如挑眉、扭头时的眼神等。

陈伟介绍,今年内还将为AI主播推出交互能力。在图像层面,则会考虑2D+3D的技术融合,在语音合成的基础上引入自然语言理解的能力,让AI分身具备认知能力。

AI合成主播的价值体现主要在解决新闻播报领域的效率。新闻讲究快,能够自动生成播报视频的AI主播在时效性得到了保证;此外,AI主播的出现也让真人主播从大量繁琐的播报工作中解放出来,投入到访谈和深度新闻报道的项目里。

据介绍,搜狗的AI分身项目已经具备快速稳定落地的能力,从语音识别到合成、唇语识别,到图像方面的表情生成、肢体生成等,团队已经建立一套完整的流水线工作体系。在新闻主播领域之外,搜狗也在推进与更多行业和领域内的场景结合。

陈伟表示,项目的落地将从媒体扩大到客服、教育以及一些娱乐场景。比如正在进行中的AI合成老师。在线上公开课的场景里,老师多以单向输出内容为主。这种情况下,老师只需准备好教案和文稿,通过AI合成形象生成多个视频内容。

在语音界,科大讯飞微软都在进行多模态识别技术的探索,具体到新华社项目的商业合作中,搜狗是凭借哪些差异化的优势受到认可?

陈伟认为主要体现在两个方面,一是项目实际效果,在和新华社沟通项目阶段,AI分身距离落地已经相对成熟,二是该项技术能够快速复制,实现推广到多人和多个领域的能力。“而其他公司距离搜狗的项目效果还有明显差距,多停留在实验室研究的状态”。陈伟介绍。

目前,新华社的AI主播主要在单个频道运营,如果想要普及到更大规模的媒体频道,高并发要求将对云端调度提出一定挑战。陈伟表示,目前搜狗提出两套方案,一套提供公有云服务;另外也支持部署在企业本地的私有云服务器上。“我们的服务在资源占用和实时性上都能满足要求。”

近日,一段“换脸杨幂版”的《射雕英雄传》在网上广泛流传,关于AI换脸和模拟真人技术的讨论上升到社会层面,比如将技术用于不正当目的的伦理问题。

陈伟对此回应,首先, “分身”与“换脸”(deepfakes)在技术层面有着本质的差别,“换脸实际上是把一个人脸映射到另一个人脸上,前期投入成本很大,但‘分身’一旦建模之后,只需要输入文字就可以生成视频,不需要任何表演成本在里面。”

在技术使用的规范问题上,陈伟表示, “搜狗选择和明确的公司、在明确的领域合作,尽量通过场景圈定技术的使用范围,这样的好处就是不会把技术滥用。”

产业搜狗人工智能应用
相关数据
搜狗机构

搜狗是中国互联网领先的搜索、输入法、浏览器和其它互联网产品及服务提供商。从2004年8 月搜狐公司推出全球首个第三代互动式中文搜索引擎——搜狗搜索以来,历经十余载,搜狗搜索已发展成为中国第二大搜索引擎。根据艾瑞咨询2016年12月数据,搜狗PC用户规模达5.28亿,仅次于腾讯,成为中国第二大互联网公司。移动端APP用户仅次于腾讯,成为中国互联网快速发展的标杆性企业。

http://corp.sogou.com/
科大讯飞机构

科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。自成立以来,长期从事语音及语言、自然语言理解、机器学习推理及自主学习等核心技术研究并保持了国际前沿技术水平;积极推动人工智能产品研发和行业应用落地,致力让机器“能听会说,能理解会思考”,用人工智能建设美好世界。2008年,公司在深圳证券交易所挂牌上市。

http://www.iflytek.com
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

推荐文章
暂无评论
暂无评论~