自然语言理解一方面承载着机器与人的交流,另一方面直达知识与逻辑。视频领域已经有诸如商汤科技、face++等知名创业公司,但对自然语言的智能化处理才刚刚开始。
让机器处理自然语言,难度在于人类信息表达的灵活性以及无处不在的长距离逻辑关联,这种逻辑关联既包含来自语言结构的依存关系,也包含语义层面上的逻辑关系,且二者相互渗透。同时,处理文本也需要对知识(包含领域知识和常识)的大量依赖。
就自然语言理解来说,这项技术经历了从符号智能到统计学习、再到深度学习的发展和演化。深度学习虽然风头正劲,但其擅长的是通过神经网络的「模糊表示」来处理信息表达的灵活性,长距离的逻辑关联问题则需要符号智能来解决;而要解决对知识的依赖,则既需要神经网络的方法来记忆和运用各种琐细灵活的知识,又需要利用符号智能来进行知识的存储和调用。
深度好奇成立于2016年底,这个团队坚信,深度学习和符号智能的结合,或者说神经符号智能,将是下一代自然语言理解的新范式,也是解决自然语言理解这个困难任务的唯一路径。
在文本处理领域,深度好奇是全球第一家成功研发出基于神经符号智能的商用化系统并实现场景落地的公司。具体来说,深度好奇以神经符号系统为核心技术思想,构建了以OONP(面向对象的神经规划)为核心技术框架的自然语言理解技术平台,其中包含多个自研技术模块,并体现为两大功能平台:复杂文本理解和对话系统。
目前深度好奇以高壁垒技术和领域深度结合为路线,专注公安和金融两大领域,在上述平台的基础上开发了公安案情语义图谱、智能视频审核、语音视频调度等产品,未来会继续以标准化产品赋能更多场景。这不同于自然语言处理这条赛道上之前很多的创业公司:它们往往利用开源的技术完成基本的分类或者简单的知识图谱,而这离行业化落地的技术标准往往相距甚远,同时也无法构建有效的产品优势。
深度好奇创始人吕正东告诉笔者,深度学习更偏向「端到端」的学习模型,比如读一段局部文字,输出一段内容。这里的痛点在于输出内容往往颗粒度较低,不能结合上下文以及相应的知识背景进行推理。以和理解相关的常见应用为例,「情感分析」往往只是判断感情是正面还是负面,而「命名实体识别」也只是标出实体(比如人、组织、地名等)的名称;但即使是这样的粗颗粒度,准确率也往往在达到一定水平之后裹足不前。
而深度好奇搭建的以OONP为架构的平台,则对人在理解文本时「一边阅读一边理解」的方式实现了模仿。在读一篇文本时,OONP会动态存储关于所读内容的理解,生成相对应的「不完全态的」语义图谱,并在后面的阅读中不断访问和完善这个知识图谱,直至读完全篇并生成整篇内容的语义图谱。OONP的框架允许神经网络和符号智能在表示、运算及知识层面上的结合,就技术而言,已远远超出深度学习这种「端到端」模型所能实现的范畴。
深度好奇的第一款产品「语义图谱」的落地场景是在公安领域,具体来说,可以根据不同形式的复杂文本(比如警察整理的案情信息、报案人的询问笔录、勘察报告等文件)推演出一套已知案情的完整语义图谱,实现信息的串联和比对,提供串并案推荐和警情预警等决策辅助。这种图谱既包括事件逻辑,也涵盖有信息量的细节,比如时间、地点、犯罪特点、犯罪手段等事件的核心要素。在这类解析任务上,深度学习的方法准确率可以达到72%,OONP的准确率则超过了90%。
(案情语义图谱产品)
同在公安领域落地的还有一款「语音调度」产品。公安系统长期存在的痛点是如何快速找到指定的摄像头并对其进行一系列操控。传统的操作是基于GPS系统在地图上点选摄像头,或在系统多级目录中一层层查找摄像头,无论哪种方式都需要鼠标操作;这其中还埋藏着更深层的痛点:这些办法都需要操作员了解明确的地址信息。
对此,深度好奇的智能语音调度产品是以对话机器人的形态,理解和执行指挥员关于摄像头的定位、控制、录像操作等需求。具体来说是从公安的视频平台切入,通过指挥员与机器人进行两三轮语音对话,将语义信息转化成后台系统理解的信息。对于指挥员来说,他可以不知道摄像头对应的严格的地址名称,而只需要了解和摄像头相关的时间、空间、视频内容等关键信息。利用语音调度这种形式,平均可以节省指挥员三分之二的信息调取时间,单任务的操作成功率达到90%以上。
(智能语音调度场景图)
第三款已商用的产品「智能视频审核」更像是跨NLP领域的反欺诈工具,一个典型的应用场景是个人小额信贷。传统的视频识别能够确定被审核人是谁,但无法确定这个人其他非视觉信息的准确性,比如现居地、工作单位等。深度好奇的这款智能视频审核产品,则在基于视频的人机交互过程中通过语音追问来进行交叉验证。具体来说,通过对接第三方数据平台,结合人脸检测/识别技术,视频终端会依据被审核人的回答提出不同问题,在语音交互中进行信息碰撞,同时视频实时记录动作、表情等信息,进一步勾勒待审批人的真实「面貌」,并在审批结束后提供信用评级及相关建议。
(智能视频审核产品,截图右上角为虚拟审核员的形象)
2018年深度好奇的主要营收来自语音调度和智能视频审核产品,语义图谱则是公司持续关注和大力投入的领域,目前市场已延拓至浙江、广州、安徽等省市,领域涵盖情报、刑侦、缉毒、反恐等。吕正东告诉笔者,深度定制化服务在保证用户满意度的同时,也是为了进一步打磨产品。2019年深度好奇会继续加大研发,并以更多标准化产品的形式加深领域内的价值挖掘。
吕正东是留美博士,曾任职于微软亚洲研究院,之后创建并带领华为诺亚方舟实验室的深度学习团队成为国际上可以和Deepmind、Google Brain、Facebook AI research比肩的语言智能研究团队之一;他在2015年发明了世界上第一个完全基于深度学习的聊天机器人「神经响应机」;在NLP领域国际顶会ACL近5年排名前30的高引用论文中有4篇来自中国,其中3篇出自他领导的团队。另外两位联合创始人李祥生、买天让分别为资深商务及媒体人士,具丰富社会资源。目前深度好奇团队有40余人,其中80%为研发人员。
深度好奇成立之初即完成合力资本及阿米巴资本的千万级天使轮融资,目前正在进行A轮融资,主要计划用于研发支出及市场推广。