Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

华仔作者

合创共赢 英特尔助力腾讯云小微赋能产业升级

英特尔宣布已于近日开始生产的第三代英特尔®至强®可扩展处理器(代号“Ice Lake”)将于2021年第一季度实现规模量产。

人工智能的影响力正在不断加深。如今,越来越多企业加入到了数字化转型的道路上,这场变革让行业的智能化水平不断提高。在新基建的引导下,人工智能技术逐渐成为数字经济发展的新动能,同时也为企业的转型升级注入强大动力。数据显示,到 2021 年将会有 75% 的企业应用集成人工智能

 
AI 语音是人工智能技术最广泛的应用,它架起了人类与数字世界之间最简单有效的沟通桥梁。在这样的背景下,越来越多的科技企业与初创企业进军智能语音市场,而腾讯作为人工智能创新的引领者,打造出云小微智能语音与视频服务接入平台,全方位赋能行业转型。

为了最大化释放云小微平台的价值与能力,腾讯英特尔合作,共同构建定制化 Parallel WaveNet(pWaveNet)声码器模型解决方案以及定制化 WaveRNN 声码器模型解决方案,对平台进行深度优化,不仅为云小微提供了突出的语音合成性能,而且还有效降低了用户总拥有成本(TCO),让更多企业可以体验到先进的智能语音服务。
 
产业新风智能语音的星辰大海

AI 正在变得无处不在。在新一轮产业变革中,人工智能技术发挥了愈加重要的作用,作为加速数字化转型实践的核心驱动力,人工智能的发展对社会经济和人类生活都产生了十分深远的影响。
 
人工智能与场景结合赋能产业升级,在这个过程中,越来越多的 AI 应用出现,其中,智能语音的增长最为突出。
 
近年来,随着实体经济与数字经济的深度融合,人工智能技术也在越来越多的行业中落地,成为行业数字化升级的基石。作为人工智能最常见的应用,企业通过 AI 语音交互技术与自身业务发展及商业模式相结合,开发出更具视觉效应的 IP 形象。这些 AI 助手成为企业的“数字员工”,来帮助企业更好地服务用户。
 
人工智能在各行业加速落地,而各新兴智能产品企业也在基于智能语音合成技术,来研发各种智能语音,如语音导航、智能客服、有声读物、智能语音输入与识别等。越来越多的智能语音出现,让人工智能市场更加繁荣,也推进着 AI 创新的发展。数据显示,我国智能语音市场规模在 2021 年可达 194.8 亿元。
 
智能语音应用打通了人机交互的闭环,可以让用户获得更多生活上的便利。然而在实际应用中,智能语音应用也逐渐显现出一些问题。一方面,智能语音产品越来越多,但能力参差不齐,操作方式也不同,“智能”反而成了一种累赘;另一方面,智能语音应用与现实场景的结合往往会面临很多额外的“干扰项”。比如在智能交通领域,车载语音识别就会受到口音、噪声、场景化语音等多个变量的影响,从而影响识别的准确度。
 

要解决这些问题,一是统一研发平台,二是提高平台语音合成技术能力。基于此,腾讯推出云小微智能语音与视频服务接入平台,通过结合全栈语音语义 AI 能力和腾讯云服务,不仅能够为用户输出高品质 AI 平台能力,还可以依托腾讯丰富的产品线和大数据能力,帮助用户获得整合腾讯中台能力的丰富场景应用方案。
 
联合定制腾讯云小微赋能产业升级

腾讯云小微是一个以基于神经网络声码器模型的 TTS(Text To Speech) 合成技术为核心能力的智能语音与视频服务接入平台,它能够通过端到端声学模型,来实现文本到语音的高质量转化与表达。
 
TTS 语音合成技术是人机沟通的关键性技术之一,它可以将外部输入的文本或计算机自己产生的信息,通过自然语言表达出来。在这个过程中,声码器模型十分关键,它可以通过计算分析来输出相应的语音波形,所以不同声码器模型的选用对语音合成效果也有着不同的影响。
 
常见的语音合成声码器模型,如 WaveNet,是相对比较成熟的技术,其生成的语音质量接近自然人声。不过,在实际运用中,传统 WaveNet 模型也存在着诸多不足。一是 WaveNet 模型结构十分复杂,对计算力要求很高;二是 WaveNet 模型语音合成时间较长,在实际交互场景中难以满足用户对实时性的要求;三是随着智能语音应用场景的普及,智能语音合成平台需要对更多设备提供支持,工作负载加大,声码器模型的语音合成工作效能有待提升;四是对于企业而言,扩容带来的成本增加。
 

基于此,腾讯英特尔合作,采用全新第三代英特尔至强可扩展处理器作为核心算力引擎,共同构建了定制化 pWaveNet 声码器模型解决方案及定制化 WaveRNN 声码器模型解决方案,以此实现云小微平台能力最大化。
 
Parallel WaveNet模型架构图

定制化 pWaveNet 声码器解决方案,在 WaveNet 模型的基础上引入“概率密度蒸馏”技术,利用一个已经训练好的 WaveNet 模型来指导实施生产的网络进行预测,这样不仅可以摆脱依赖于先前已生成点作为输入条件的顺序生成模式,还能够一次性生成整个序列上的输出采样点,大幅减少语音合成时间。
 
不仅如此,腾讯还在定制化 pWaveNet 模型中将网络一维卷积运算转换为几个通用矩阵相乘的操作,以此减少模型计算量。同时,引入 Open-MP 并行机制,充分发挥定制化 pWaveNet 模型中并行计算的优势,在不影响语音质量的前提下,有效提高语音合成速度。
 
WaveRNN模型架构图

定制化 WaveRNN 声码器解决方案,专为逐渐增加的工作负载而设计。其主体部分依旧是 WaveRNN 模型中具有双 softmax 层的单循环网络的基本结构,不过却将该网络原始输入中的线性部分分离出来,并进行 LPC 预估处理,以此来大幅降低网络处理难度,有效提高整体计算速度。与此同时,定制化 WaveRNN 声码器解决方案还引入了稀疏化技术,来减少带宽占用,降低网络整体计算时间,并在多核环境中平衡计算力,增强模型运行的稳定性。
 
第三代英特尔®至强®可扩展处理器为定制化 pWaveNet 声码器解决方案及定制化WaveRNN 声码器解决方案提供强大底层支撑。新一代英特尔至强可扩展处理器不仅具备更多的内核与线程,在为云小微提供强大算力的同时,也满足其对吞吐量的需求。
 

更值得一提的是,第三代英特尔®至强®可扩展处理器内置的BF16指令集在整个方案中起到了十分关键的作用,大幅提升AI能力,在两种不同定制化的拓扑结构上将推理性能分别提高 1.89 倍和 1.54 倍。并与英特尔 AVX-512 指令一起,在英特尔 oneAPI 深度神经网络库的配合下,加速硬件效率。再配合新一代处理器配备的更大缓存,能够有效提升整体处理性能。
 
合创共赢英特尔构建智能生态圈

世界正在朝着更加智慧化的方向前进,英特尔开启以数据为中心的转型,以全面的软硬件实力来帮助企业实现智能化部署。同时,英特尔也在与越来越多的合作伙伴一起,借助自身深厚的技术积累和丰富的产品组合,共同开发新的智能应用,加速AI创新发展。
 
云小微平台就是英特尔腾讯在AI领域联合创新的成果,事实上,在去年的腾讯全球数字生态大会上,英特尔腾讯达成了一系列创新合作,不仅全面升级了腾讯英特尔联合实验室,还联合开发并推出腾讯云首款星星海四路服务器。在软件层面,腾讯英特尔AI软件栈优化为基础上线了Open Vino™推理加速引擎,也成为业内第一个支持Analytics Zoo 的公有云厂商。
 
在智能语音领域,英特尔还将与腾讯开展更加深度的合作,结合英特尔先进的软硬件技术,将智能化应用拓展到更多的业务场景中去。不仅如此,双方还会在语音识别、声纹识别等其他AI领域共同开发,赋能各行业智能化升级,并不断扩大智能生态圈。
 
在更大范围内,包括人工智能领域,英特尔凭借新一代至强平台强大的基础设施能力,也将与腾讯一起在数据上云、高性能计算、数据安全等方面为用户提供敏捷、高效、稳定的数字服务,帮助用户更快进行业务升级,并联合共建广泛的数字生态圈。
 
英特尔正在与合作伙伴共同推进技术进步。从云小微平台,英特尔腾讯的联合创新让智能语音合成变得有效且高效;在云小微平台之外,可以看到的是更加繁荣的人工智能市场以及英特尔全力构建的数字生态圈。


产业英特尔腾讯云
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
语音合成技术

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

推荐文章
暂无评论
暂无评论~