半夏 撰写

如何在声学界与工业界搭建一座互通的桥梁?

当Alexa在2014年扇动自己的翅膀时,谁能想到Alexa和Echo能带来翻天覆地的人机交互方式的改变?

而在交互方式之下,则是一个属于人工智能的新的产业周期,这个产业周期以技术为驱动力,带来了颠覆性的、持续性的、横切整个社会的新周期,也彻底重构了之前的市场,真正地给大家带来了更为便捷的生活方式。

整个语音交互市场也从来不缺巨头的参与。国外的微软、谷歌、苹果、亚马逊早早布局了各自的语音产品,国内阿里、百度、京东、小米也相继进入语音交互市场。不可否认的是,语音交互市场的前景是广阔的。

在众多智能产品中,用户可以通过各种手段对其进行控制,而语音交互无疑是最便捷的操控手段。人工智能的发展也将与语音交互发展深度相连。

恰在此时,9月的苏州,2018声频工程暨声学媒体与信息学术交流年会如期而至。与会嘉宾带着沉淀后的学术结晶,携着高屋建瓴的行业之势,为语音交互的底层建筑基础声学技术带来了整个技术生态的震荡。

语音交互将成下一个入口

来自科尔尼管理咨询公司的最新报告预计,到2020年全球智能家居的整体规模将由目前的100亿美元增长至500亿美元,并有望在2030年激增至4000亿美元。

且从发展情况来看,语音交互控制产品会最先进入大众生活。包括智能手机、智能家居、无人驾驶汽车等,均会优先实现人机交互通过语音来控制。

目前,近场识别技术目前已经比较成熟,现在手机上使用的语音输入功能就属于近场识别技术,但在智能家居环境中,用户和智能终端之间的距离被大大增加了,用户能随意用语音控制智能家居的一个必要条件就是在无论在客厅哪个角落发出指令,设备都能准确的识别,语音识别技术必须突破距离的障碍。

AI锐见此前也采访了业内人士声智科技副总裁李智勇,他表达了的一些看法, “只有远场语音交互才可以让人和遥控器彻底的分离,让交互变得更简单。一旦这种远场语音交互与后面的影视内容生态相融合,那就会进一步拓宽整个智能语音交互的内涵,而不只是局限于智能音箱。”

而从创新角度上看,远场语音交互也带动了全球智能链条四个层次的创新:底层包括元器件、芯片、模组,之上一层包括VOS、网络,然后是产品,再往上一层是内容服务,都需要根据语音交互的变革来进行相应的改变。

但相对的,语音交互的落地产品之一智能音箱市场表现也相当不俗。据Canalys的分析师报告,全球智能音箱市场在2018年第二季度增长了187%。苹果,谷歌,小米,亚马逊和其他公司的总出货量为1680万台,高于第一季度的900万台。

那么,问题来了,为何苹果、三星、谷歌、微软、亚马逊等科技巨头,都不约而同的将大量精力投入到了智能语音交互领域,而且争相推动其智能音箱产品的销售?

这正是因为大家都在争夺移动互联网之后的稀缺入口。在即将到来的万物互联时代,次类型的入口以及语言交互的形式极有可能会成为主流。而且智能音箱是语音交互真正落地的第一款产品,其自带控制中心属性,将成为智能家居的核心。

此前,互联网女皇发布2018年报告时就声称,全球在人工智能技术上的资金投入逐年增加。包括谷歌、亚马逊、阿里巴巴、百度、腾讯等互联网科技巨头均在研发人工智能服务平台。

激烈而又温暖地学术讨论

中国声学学会副理事长兼秘书长、中科院声学所党委书记张春华研究员,中国声学学会副理事长、华南理工大学声学研究所所长谢菠荪教授,中国声学学会副理事长、同济大学声学研究所所长毛东兴教授,中国声学学会声频工程分会主任委员、中科院声学所所长助理、中科院噪声与振动重点实验室主任杨军研究员,中国声学学会声学媒体与信息分会主任委员、国家网络新媒体工程技术研究中心主任王劲林研究员等学者专家都出席了此次年会。

AI锐见也有幸受邀参加了此次2018声频工程暨声学媒体与信息学术交流年会。

大会伊始,AES(国际音频工程学会)副主席、亚太区域负责人王树森,中国科学技术大学教授朱祖勍,北京镭场景科技有限公司首席科学家徐争,分别就《AES(国际音频工程学会)资源分享与动态观察》、《基于POF的深度可编程网络及其在5G中的应用》、《物联网的场景挖掘》做了精彩的特邀专题报告。

除此之外,大会不得不提的是论文的发布以及讨论环节。剧场声学设计、场馆扩声、声学特征识别、虚拟听觉、声学媒体与信息、公关广播、扬声器设计、声学信号处理等等细分声学领域的优秀论文作者纷纷登台演讲,发言进行到精彩阶段,还有人不断地与论文作者进行深入地讨论。

而在会议的尾声,大会也邀请了声智科技CEO陈孝良、清华大学教授窦维蓓分别就《智能音响趋势与智能语音交互技术》和《AVS2音频标准(GB/T33475.3--2018)》,两者的演讲也为会议增光填色不少。

不过与其他学术会议不太相同的是,本次大会还专门设置了技术交流及信息发布环节,相关行业的企业一一登台,简单介绍自己公司之外,更为了介绍自己公司的优势所在,以便于吸引台下就座的行业人士加入或者合作。

杨军研究员也表示,“我把会议内容发到业界群里,很多业内人士从人工智能回头来看传统声学和音响,即便是美国智能音箱有着50%的占有率,但离真正的好用还是有一定的距离。这就有待于我们在未来团结更多的行业人士,一起往前走得更远,让专业性的技术更加接地气,与工业界企业与时俱进,与BAT、小米、哈曼等建立更多合作关系。”

做声学界和工业界的学术桥梁

中国声学学会副理事长、秘书长,中科院声学所党委书记张春华研究员直接在发言中表示,人工智能行业发展特别快,相关行业竞争也非常激烈,产业链条研发等也非常多,那么协会就需要为大家提供好服务,服务企业的技术创新,服务社会经济的发展,也希望企业的研发人员积极地关注协会,一起推动协会的工作,不断提升相关行业的技术创新能力。

在参会期间,AI锐见还就大会以及当下声学技术发展等问题采访了几位与会嘉宾。

王树森就对AI锐见表示,因着之前的发展困境以及传统观念,声学界和工业界之间的信息流通存在着一定的障碍,此次大会就做了一次很好地尝试,把两个不同层面的人紧密地联合在了一起,穿针引线,可以让学术直接落地转化。

“研究人员和制造者之间,应该做到思想的融会贯通,这样才会极大地碰撞出火花来,大家互相合作才能给彼此带来更大的启发,尤其是跟工业工程结合地更紧密,技术应用的转化和落地才会更有价值。主办方应该以身作则,让行业内的人走得更顺畅点,丰盈我们这些饥渴的等待着新知识新理念充实头脑的会员。”

此外,一些来自工业界的行业人士也对AI锐见表达了自己的相关看法。在他们看来,此次大会特别难得,聚拢了几乎圈内最有分量的嘉宾专家,每次来听听行业的最新论文及学术动态,有利于自己在行业的技术发展。

当然,还有企业与会人员表示,大会还是人工智能行业细分领域发展的风向标。之前在VR/AR热的时候,相关的会议就特别受到热捧;而在随后行业发展受阻的时候,行业大会的参会者就变得相对稀少。大家可以从会议中一窥行业发展动态,对自我的发展进行及时地调整。

让学术和技术之路走得更加顺畅

由于人工智能行业发展的特殊性,学术界和工业界不仅无法完全割裂发展,还需要相辅相成地向前发展:工业界需要源源不断的人才和技术,学术界需要大数据和技术落地,大势不可违。

因此,如何建立一座在学术界研究人员和工业界企业间互通的桥梁,在一定程度上成为了人工智能发展的关键。

360人工智能研究院院长颜水成教授在之前演讲中曾表示,学术界多数做的事情是在思考,在想它的极限在哪,主要用脑;工业界并不是强调用脑,而是用心,怎么样能把场景做出来,并不一定要有非常高大上的算法,但要从用户使用产品的维度上,让用户感觉这个产品非常好。

而学术界和工业界又不是完全割裂的:工业界敢去提某一个产品的设想,是看到了在学术界有一些前沿的成果,可以在工业界来用。同时,工业界也在逐步提炼它的问题,扔给学术界,希望他们去做这种前沿的探索。

其实,2018声频工程暨声学媒体与信息学术交流年会想要做的就是这其中学术界和工业界的桥梁。一方面,声频工程学会以及声学媒体与信息学会深深地扎根在科研院所之中,有着广泛的科研基础,对最前沿的声学技术了如指掌;另一方面,两个学会又与工业界的相关企业有着广泛而密切的合作关系,必然也会及时地收集到行业的相关信息,做好技术的反馈与创新。

结语

如今,各大互联网厂商纷纷推出智能音箱产品,看似是音箱之战,实则是从语音平台到智能家居生态的“圈地运动”。众多厂商都希望通过接入语音平台,将语音平台所覆盖的设备和用户数量快速扩充,完成多个家居互联平台的覆盖。

而且谷歌、苹果、微软、三星、华为、小米等众多科技公司不断入局智能家居行业,包括传统硬件企业、互联网企业、房地产家装企业也在纷纷抢滩智能家居市场。

毕竟,每家公司都争相在平台、系统中枢上布局,意在以开放平台为卖点,构建一个开放的生态,实现互联互通与家居控制中心的战略目标,借此抢占更多上下游的支持者资源,巩固自身在市场中主导地位。

苹果联合创始人Steve Wozniak就曾在2016年表示,智能语音交互将成为计算领域下一个重要的平台,语音控制和人工智能将实现互联网与现实世界的无缝互动。

StrategyAnalytics也预计,2023年智能音箱市场价值最高可达230亿美元。而GlobalMarket Insights则称,到2024年,全球智能音箱市场的价值可能高达300亿美元。

我们也有理由相信,在这样广阔的市场背景下,声学技术一定会以语音交互为入口,展现出自我独特的魅力和价值。

AI锐见
AI锐见

洞察AI行业趋势

产业智能音箱智能语音交互
相关数据
声智科技机构

声智科技成立于2016年4月,是一家专注声学前沿技术和人工智能交互的科技创新公司,致力于引领真实环境下更自由的人工智能交互体验,实现“听你所言,知你所想”的人机交互愿景。

http://www.soundai.com/
颜水成人物

颜水成,新加坡国立大学副教授、360集团副总裁、人工智能研究院院长、第十三批国家 "千人计划"专家。颜水成的主要研究领域包括计算机视觉、深度学习、信息检索应用与多媒体分析。他带领的团队曾提出的“Network in Network” ,对深度学习产生了很大的推动力,同时他的团队开发的”Purine”是全球第一个开源的支持多机多GPU的深度学习系统。

相关技术
重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~