Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

读脸·对话:思必驰+旷视让机器听清和看懂世界

视听嗅味触是人类的五种基本感觉方式,而其中尤其以视觉和听觉给人输入的信息最多。对于以服务于人为目标的机器人和智能系统而言,针对这两个感官的信息处理方式也是人工智能研究和应用的首要方向。

在近日于深圳举办的第十八届中国国际高新技术成果交易会上,思必驰和旷视科技联合举办的主题为《读脸·对话——AI 技术风暴》的沙龙作为大会 4 号馆「专业沙龙及活动」的最后压轴,探讨了人工智能技术对计算机视觉和语音技术的影响及相关应用。


chicago.jpg

让机器看懂世界

上帝说:要有光。


如果这个世界真的是某上帝创造的,那么他的造物的第一种感觉想必也应该是视觉。


今天,上帝的子民早已用进化论将他送进了坟墓,接着他们又开始用自己的头脑创造自己的智能造物了。在做出了能让计算机看得见的摄像设备之后,人类又开始研究能让计算机看得懂的计算机视觉技术。


在这次沙龙上,旷视 Face++ 智能商业产品总监李晨光介绍了旷视科技在计算机视觉领域的应用成果。据他介绍:人工智能平台应该是一种通过数据、技术、产品三者不断循环完成的滚雪球式闭环。而旷视则在这三方面分别给出了标注化的图像数据、深度学习算法和智能视觉云平台三个答案。


通过对这三者的闭环式的整合,旷视科技构建了提供人脸检测、识别和搜索等服务的人脸识别平台 Face++;该平台可以通过在线 API 和离线 iOS/Android SDK 的形式授权给不同类型的用户使用。并在商业产品线上提出了三种基于云服务的场景解决方案:智能生活解决方案、智能商超解决方案和智能企业解决方案。这些方案已经在智能安防、企业安全、用户分析和迎宾机器人等许多领域得到了应用。


Synced (36).JPG

计算机视觉与机器人技术的整合(来自该沙龙上神州云海营销总监沈剑波的演讲幻灯片,这家公司的机器人产品就采用了旷视科技的图像识别解决方案)


比如在前几天机器之心新的 C Talk 专栏 上,用钱宝的 CTO 齐鹏就谈到了该公司正在利用 Face++人脸活体检测的感知技术辅助搭建风险评估系统,他谈到:


我们使用 Face++是基于两方面的考虑,一个是验真,一个是提升审核效率。

首先我们要保证贷款个人是本人来申请,不是别人来冒名顶替,我们发现人脸核对身份是比较好的方式,另外人来核查跟机器相比还是慢很多,「Face++的稳定性好,识别准确度高,使用很流畅,服务能力还不错」。

除此之外,旷视还研发了结合软硬件的「人脸识别智能摄像机」(搭载 NVIDIA TK1 处理器),结合该公司的云平台,可以提供符合安防和企业用户识别等不同应用场景的解决方案。

让机器人听懂我们的声音

当说着同一种语言的人类即将造出通天的巴别塔时,惶恐不安的上帝扰乱了人类的语言,让人类再也没有办法团结起来。


视觉可以让人理解这个世界,而话语则能让人表达和倾听彼此最深刻的思想,进而创造出巨大的价值和力量。在人类创造了机器之后,人类又发明了基于人工智能的语音识别和自然语言处理技术,以期帮助机器听懂人类的口头语言,并进一步完成通过这些语言赋予它们的任务。


思必驰产品总监张岩在本次沙龙上从产品应用角度分析了智能语音技术的应用。他表示在物联网发展的时代,语音将会成为交互必备的入口之一,但是未来语音技术的将不会局限在交互、输入、输出方面,VUI(语音交互界面)的兴起能够让人机交互更自然、让机器更具备主动性、并能引导用户完成操作。要实现这一目标,在技术性能上要求低功耗、高性能、很稳定、易扩展,在交互体验上强调响应速度、交互结果和功能体验。


blob.png

思必驰的发展历程


自 2007 年以来,思必驰已经从单纯的研发团队成长为了国内领先的智能硬件的自然语言人际交互解决方案提供商,打造了能感知、能理解、能反馈的认知型自然口语交互技术。


除此之外,思必驰还是「国内首个推出可打断可纠正的认知技术」公司,可以通过情境理解和多伦交互来消除不确定性——至少从现场播放的演示视频上看,这项技术似乎已经达到了可实际应用的程度。


和旷视科技一样,思必驰也采用了软硬兼备的发展模式:在软件上开发了基于语音交互的 AIOS 人机对话操作系统,硬件上则推出了 AICHIP 智能语音芯片模组。


blob.png

思必驰 AIOS 架构示意图


blob.png

思必驰 AICHIP 特点和应用场景


思必驰的解决方案已经在智能车载、智能家居和智能机器人等多个垂直领域得到了应用,包括沙龙最后萝卜科技营销负责人程郁馗介绍的一些早教机器人产品。

总结

机器之间存在光电磁这样的更高效稳健的通信方式,但如果机器要和人进行交互,它们就必须学会用人类最常用的感觉方式(视觉和听觉)来感知世界。旷视科技和思必驰主攻的这两个方向正是要赋予机器视觉和听觉这两项最重要的人机自然交互能力。在这些方向上,从谷歌、Facebook、百度等国内外巨头到如雨后春笋般涌现的创业公司,许多研究者和实践者都在努力,以帮助智能机器——人类的造物——看懂和听清这个世界。



注:中国国际高新技术成果交易会(简称高交会)由中国商务部、科技部、工信部、国家发改委、农业部、国家知识产权局、中国科学院、中国工程院等部委和深圳市人民政府共同举办。2016 高交会于 11 月 16 开幕,为期六天,旨在展示新一代信息技术、生物、高端装备制造、新能源、新材料、新能源汽车等领域的先进技术和产品,推动高新技术成果产业化、国际化,促进国家、地区间的经济技术交流与合作。

入门计算机视觉语音识别产业NLP创业公司
暂无评论
暂无评论~