深思考杨志明:多模态深度语义理解开启人机交互新时代

弥补深度学习不足,杨志明认为类脑AI是“最佳人选”。

随着云、物联网、互联网网络、光网、宽带、5G的发展,大数据燃料非常充足,未来的少人化工厂、虚拟社区、私人定制等服务都将是智能化场景的最终形态,这使得如何实现更自然的人机交互成为当下十分重要的课题。

在刚刚结束的“2018硬科技行业领袖峰会暨镁客网年会”活动上,深思考人工智能CEO兼AI算法科学家杨志明博士发表了主题为《多模态深度语义理解开启人机交互新时代》的演讲,他直言行业急需改进:目前的AI技术在产业化中已经有很多问题出现,比如深度学习非常依赖大数据,而人脑是依赖小数据的,看到一个新的人脸就可以很快的记住并认识他,但AI不行。那么,我们就得思考如何让AI模仿人脑举一反三。

演讲中,杨志明通过案例呈现做了深度的探讨。

以下为杨志明先生的演讲实录:

各位听众大家上午好,非常荣幸跟大家分享一下多模态深度语义理解和人机交互

首先我介绍一下什么是类脑人工智能。现在AI概念比较普及,我们做AI的一线从业者发现了一些问题,目前的人工智能大多数突破的是深度学习的方法,其实到我们逐渐的产业化过程中却发生了一些问题。深度学习主要存在哪些问题?首先深度学习比传统学习要好很多,但深度学习也存在一些问题,一些我们产业化和研究中遇到的问题,比如深度学习非常依赖大数据。而人脑是可以依赖小数据的,就好像我们看到一个新的人脸的时候,很快可以认识他/她,即便是小数据也可以做到非常好的结果。另外深度学习功耗非常大,运算速度也非常慢。人脑功耗非常低,运行速度也非常快。我们人脑可以举一反三,但是深度学习机器学习没法做到很好的推理,它必须依赖大量的数据学习数据的规律。

以上三点是类脑AI要去解决的问题,那么如何使得我们的人工智能不完全依赖大数据,小数据也可以运行,使得人工智能可以实现快速的迁移?现在所谓的人工智能都在聚焦某个场景,但其实怎么模拟的人脑举一反三,怎么在目前AI小的计算资源下快速和低功耗的运行?这是我们要致力解决的类脑AI技术。

目前,从取得的成果来看,我们已经在多模态深度语义理解这块做了突破。比如看一个电视剧,眼睛看画面、耳朵听声音、眼睛看字幕,对不同事物不同状态,人脑可以同时做理解。但AI还停留在识别与感知阶段,人脑更多是语义理解,而且是多模态理解,这是我们专注的人工智能技术领域。

其中,我们的多模态的深度语义理解,可以同时多模态的实现对文本与视觉图像的语义理解。举例来说,如果传统时代做AI识别,一个小狗在小树荫下面我们去识别的时候,发现识别分类两个目标,一个目标是小狗,另外一个目标是一棵树,基于视觉语义理解,一个小狗在树荫下乘凉,而我们人脑理解的是更加深度的理解文本背后的含义:一个小狗在树荫下乘凉,外面是炎炎夏日。这便是我们的多模态深度语义理解,我们把这个用在人机交互上产生了很多技术特点和变化。

拿自由切换场景来举例,人与人交流的时候是可以自由切换场景的,比如第一个场景买一张机票,对方问“你要去哪?”我可以答非所问,“你放一点音乐我来听一听。我先想一想,我想明天下午两点以后去。”但这句话其实是针对一个场景的上一个问题的答非所问,我们人类交互的时候就是这样,大量的时候是缺省,比如“日本国土面积是多少?”“中国呢?”所以在人机对话的时候也是大量存在缺省的,我们用多模态语义理解现在取得的突破,相比同行的友商我们突出的竞品优势就是:人机对话能够实现自由地切换对话场景,具备上下文流畅的多轮交互。

在医疗方面,我们切入的落地场景是智慧医疗的宫颈癌细胞学AI辅助筛查,这是一个刚需场景,宫颈癌是女性最高发的恶性肿瘤之一,每一位适龄女性都应该定期进行宫颈癌筛查,但与此同时,病理医师新生力量呈现“断崖式”短缺,国内医疗资源分布不平衡,相关医疗筛查产品准确率低等问题的出现,远远无法满足中国女性的医疗需求。我们通过“多模态深度语义理解”技术进行“排阴”,辅助病理医生阅片,病理医生只需要人机协同进行复核操作,从而提高宫颈癌筛查效率、降低病理医生筛查工作量及工作强度,快速降低误诊、漏诊。

为什么多模态深度语义理解有技术优势?举例来说,在宫颈细胞中有一种叫腺细胞,这类细胞病变比较罕见,我们北京市总共才收集到600例数据便做出了非常好的结果,要知道腺细胞本身识别的话没有问题,但他们会“抱团”出现问题,通过多模态深度语义理解技术,我们便可以发现它们的问题,并且我们的产品是国内唯一可以筛出腺细胞异常的产品。目前我们的iDeepWise.AI 4.0产品已经覆盖70%第三方检验机构市场,同时与30多家知名三甲医院建立合作。

此外,深思考人工智能技术落地应用场景在智能汽车领域,汽车人机交互和语义理解存在刚需场景。第一,实时性。不能完全云端运行的场景,比如信号不好时,云端反馈回来比较慢,上云反馈结果以后这个车可能开过去了,这类实时性要求比较高,我们通过端模式针对这个场景做实时运算。第二是车内个性化需求,包括针对用户的习惯和爱好做人机交互对话,根据不同场景、不同用户的习惯跟用户实现人机对话。

车机这块APP太多了,用语音识别产品还不够。语音识别能解决听见的问题,比如“我比较热”,语音识别是理解不出来的,但加上我们多模态语义对话的产品就可以,“主人你是要开空调还是开窗?”这样对话就可以延续下去。

深思考AI落地在智能汽车场景这块,针对于车内人机交互的场景,通过“多模态深度语义理解与人机交互”技术实现车内外场景的理解,从而更加主动、更加智能地发现、满足人们的需求,极大地提高车内人机交互体验。通俗来讲便是车外模组对当前车辆所处的场景进行理解,提高驾驶的安全和舒适性。例如我们通过8度摄像头做车外视觉模组切换,我们现在车外视觉模组侦测到室外场景:夕阳西下,风景无限好。

同时车内外模组的互相协作,车内模组通过多轮跨域上下文理解、场景理解与提醒等多模态深度语义理解与人机交互技术将交互模式调整为适应当前场景的状态,为用户提供最大化的“懂你”的交互体验升级。

目前我们已与国内外多家汽车制造厂商和主机厂商进行合作。

我们完全坚信深思考人工智能的多模态深度语义理解技术与产品,深度结合场景需求,一定能实现人工智能的大规模应用落地,未来实现处处可理解,万物可对话!谢谢大家。

深思考人工智能
深思考人工智能

深思考人工智能(iDeepWise Artificial Intelligence)是一家专注于类脑人工智能与深度学习核心科技的AI公司。核心团队由中科院自动化所、软件所、计算所、微电子所等中科院院所、清华大学一线青年AI科学家(博士10名)与领域顶级专家、营销专家组成。公司最为突出的技术是“多模态深度语义理解技术”,可同时理解文本、视觉图像背后的语义,主要面向场景为智慧医疗大健康和智能汽车。

产业语音识别机器学习深度学习人机交互语义理解
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~