创业邦乔德地作者

深度学习+符号智能,硬核公司「深度好奇」正在将新技术范式商业化

自然语言理解一方面承载着机器与人的交流,另一方面直达知识与逻辑。视频领域已经有诸如商汤科技、face++等知名创业公司,但对自然语言的智能化处理才刚刚开始。

让机器处理自然语言,难度在于人类信息表达的灵活性以及无处不在的长距离逻辑关联,这种逻辑关联既包含来自语言结构的依存关系,也包含语义层面上的逻辑关系,且二者相互渗透。同时,处理文本也需要对知识(包含领域知识和常识)的大量依赖。

自然语言理解来说,这项技术经历了从符号智能到统计学习、再到深度学习的发展和演化。深度学习虽然风头正劲,但其擅长的是通过神经网络的「模糊表示」来处理信息表达的灵活性,长距离的逻辑关联问题则需要符号智能来解决;而要解决对知识的依赖,则既需要神经网络的方法来记忆和运用各种琐细灵活的知识,又需要利用符号智能来进行知识的存储和调用。

深度好奇成立于2016年底,这个团队坚信,深度学习和符号智能的结合,或者说神经符号智能,将是下一代自然语言理解的新范式,也是解决自然语言理解这个困难任务的唯一路径。

在文本处理领域,深度好奇是全球第一家成功研发出基于神经符号智能的商用化系统并实现场景落地的公司。具体来说,深度好奇以神经符号系统为核心技术思想,构建了以OONP(面向对象的神经规划)为核心技术框架的自然语言理解技术平台,其中包含多个自研技术模块,并体现为两大功能平台:复杂文本理解和对话系统

目前深度好奇以高壁垒技术和领域深度结合为路线,专注公安和金融两大领域,在上述平台的基础上开发了公安案情语义图谱、智能视频审核、语音视频调度等产品,未来会继续以标准化产品赋能更多场景。这不同于自然语言处理这条赛道上之前很多的创业公司:它们往往利用开源的技术完成基本的分类或者简单的知识图谱,而这离行业化落地的技术标准往往相距甚远,同时也无法构建有效的产品优势。

深度好奇创始人吕正东告诉笔者,深度学习更偏向「端到端」的学习模型,比如读一段局部文字,输出一段内容。这里的痛点在于输出内容往往颗粒度较低,不能结合上下文以及相应的知识背景进行推理。以和理解相关的常见应用为例,「情感分析」往往只是判断感情是正面还是负面,而「命名实体识别」也只是标出实体(比如人、组织、地名等)的名称;但即使是这样的粗颗粒度,准确率也往往在达到一定水平之后裹足不前。

深度好奇搭建的以OONP为架构的平台,则对人在理解文本时「一边阅读一边理解」的方式实现了模仿。在读一篇文本时,OONP会动态存储关于所读内容的理解,生成相对应的「不完全态的」语义图谱,并在后面的阅读中不断访问和完善这个知识图谱,直至读完全篇并生成整篇内容的语义图谱。OONP的框架允许神经网络和符号智能在表示、运算及知识层面上的结合,就技术而言,已远远超出深度学习这种「端到端」模型所能实现的范畴。

深度好奇的第一款产品「语义图谱」的落地场景是在公安领域,具体来说,可以根据不同形式的复杂文本(比如警察整理的案情信息、报案人的询问笔录、勘察报告等文件)推演出一套已知案情的完整语义图谱,实现信息的串联和比对,提供串并案推荐和警情预警等决策辅助。这种图谱既包括事件逻辑,也涵盖有信息量的细节,比如时间、地点、犯罪特点、犯罪手段等事件的核心要素。在这类解析任务上,深度学习的方法准确率可以达到72%,OONP的准确率则超过了90%。

(案情语义图谱产品)

同在公安领域落地的还有一款「语音调度」产品。公安系统长期存在的痛点是如何快速找到指定的摄像头并对其进行一系列操控。传统的操作是基于GPS系统在地图上点选摄像头,或在系统多级目录中一层层查找摄像头,无论哪种方式都需要鼠标操作;这其中还埋藏着更深层的痛点:这些办法都需要操作员了解明确的地址信息。

对此,深度好奇的智能语音调度产品是以对话机器人的形态,理解和执行指挥员关于摄像头的定位、控制、录像操作等需求。具体来说是从公安的视频平台切入,通过指挥员与机器人进行两三轮语音对话,将语义信息转化成后台系统理解的信息。对于指挥员来说,他可以不知道摄像头对应的严格的地址名称,而只需要了解和摄像头相关的时间、空间、视频内容等关键信息。利用语音调度这种形式,平均可以节省指挥员三分之二的信息调取时间,单任务的操作成功率达到90%以上。

(智能语音调度场景图)

第三款已商用的产品「智能视频审核」更像是跨NLP领域的反欺诈工具,一个典型的应用场景是个人小额信贷。传统的视频识别能够确定被审核人是谁,但无法确定这个人其他非视觉信息的准确性,比如现居地、工作单位等。深度好奇的这款智能视频审核产品,则在基于视频的人机交互过程中通过语音追问来进行交叉验证。具体来说,通过对接第三方数据平台,结合人脸检测/识别技术,视频终端会依据被审核人的回答提出不同问题,在语音交互中进行信息碰撞,同时视频实时记录动作、表情等信息,进一步勾勒待审批人的真实「面貌」,并在审批结束后提供信用评级及相关建议。

(智能视频审核产品,截图右上角为虚拟审核员的形象)

2018年深度好奇的主要营收来自语音调度和智能视频审核产品,语义图谱则是公司持续关注和大力投入的领域,目前市场已延拓至浙江、广州、安徽等省市,领域涵盖情报、刑侦、缉毒、反恐等。吕正东告诉笔者,深度定制化服务在保证用户满意度的同时,也是为了进一步打磨产品。2019年深度好奇会继续加大研发,并以更多标准化产品的形式加深领域内的价值挖掘。

吕正东是留美博士,曾任职于微软亚洲研究院,之后创建并带领华为诺亚方舟实验室的深度学习团队成为国际上可以和Deepmind、Google Brain、Facebook AI research比肩的语言智能研究团队之一;他在2015年发明了世界上第一个完全基于深度学习聊天机器人「神经响应机」;在NLP领域国际顶会ACL近5年排名前30的高引用论文中有4篇来自中国,其中3篇出自他领导的团队。另外两位联合创始人李祥生、买天让分别为资深商务及媒体人士,具丰富社会资源。目前深度好奇团队有40余人,其中80%为研发人员。

深度好奇成立之初即完成合力资本及阿米巴资本的千万级天使轮融资,目前正在进行A轮融资,主要计划用于研发支出及市场推广。

产业命名实体识别知识图谱自然语言处理深度好奇深度学习
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
华为机构

华为成立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。华为的主要业务分布在无线、网络、软件、服务器、云计算、人工智能与大数据、安全、智能终端等领域,发布了5G端到端解决方案、智简网络、软件平台、面向行业的云解决方案、EI企业智能平台、新一代FusionServer V5服务器、HUAWEI Mate等系列智能手机、麒麟系列AI芯片等产品。目前华为拥有18万员工,36所联合创新中心,14所研究院/所/室,业务遍及170多个国家和地区。

http://www.huawei.com/cn
商汤科技机构

商汤科技成立于 2014 年,专注于计算机视觉和深度学习的原创技术,是中国领先的人工智能头部公司,估值超过 45 亿美金。以「坚持原创,让 AI 引领人类进步」为使命,商汤科技建立了国内顶级的自主研发的深度学习超算中心,并成为中国一流的人工智能算法供应商。商汤科技不仅在技术实力上领跑行业,商业营收亦领先同行业,在多个垂直领域的市场占有率居首位。目前,商汤科技已与国内外多个行业的 400 多家领军企业建立合作,包括 Qualcomm、英伟达、本田、中国移动、银联、万达、苏宁、海航、中央网信办、华为、小米、OPPO、vivo、微博、科大讯飞等知名企业及政府机构,涵盖安防、金融、智能手机、移动互联网、汽车、智慧零售、机器人等诸多行业,为其提供基于人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等技术的完整解决方案。

www.sensetime.com
吕正东人物

华为诺亚方舟实验室高级研究员,曾在微软亚洲研究院工作。研究兴趣:机器学习、数据挖掘。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

深度好奇机构

深度好奇2016年创立于北京,成立初期即获千万级天使轮投资。公司由NLP领域的著名专家吕正东(前MSRA、华为诺亚方舟实验室资深研究员)创办,致力于用最前沿的语义技术提高垂直领域销售、决策、风控等核心环节的效能。深度好奇的技术团队将深度学习和符号智能结合, 独家研发出用于复杂语言理解的神经符号系统,在国内NLP技术中具有范式性和引领性,所研发的系列产品深受行业客户认可。

http://deeplycurious.ai/
推荐文章
暂无评论
暂无评论~