袁晓倩作者 元典法律智能来源

一家法律智能公司的CTO是怎样炼成的?

在法律——这样一个跟图像识别领域相比并无有形实体、充满人类拟制概念;跟围棋领域相比规则复杂而混沌的领域中,实现法律智能的技术路径是什么?

2003年,刚刚踏入法律领域进行技术研发工作的李东海就思考过这个问题。彼时的他虽然接触法律行业不久,却敏感地察觉到这个包罗人类万千情态领域的特殊性。

拿“自首”这件事举例,现实生活中普通人会说的“闯祸后主动打电话报警”这类生活事实对应的是“自首”的法律概念,而这两个字又需要被置于整个刑法体系下,跟法条、案例等等千丝万缕地关联在一起以后,才会被神奇地赋予了意义,并能与复杂多变的生活事实相对应。当时的李东海就意识到,这些无实体的、复杂的法律概念不能预置到机器中,那么是否能通过知识图谱的方式让机器了解、推理和识别?

一晃十五年,曾经的“脑洞”逐渐成为现实。

2018年8月17日,全国知识图谱与语义计算大会在天津召开。论坛发言环节,不惑之年的李东海站在台上简明扼要地向与会者介绍法律知识图谱——法律知识图谱是垂直领域的知识图谱,是众多法律要素组成的知识库,是机器进行法律知识推理的基础。

法律知识图谱逻辑图 

全国知识图谱与语义计算大会是技术界的盛会,全国知识表示、自然语言理解机器学习数据库、图计算等相关领域的重要学者和研究人员济济一堂,共同探讨大数据环境下语言理解、知识获取与智能服务的关键技术和应用。李东海本人也是中国中文信息学会语言与知识计算专委会委员之一。

将晦涩的技术概念高度凝练之后举重若轻地表达,这种化繁为简的演绎背后是李东海十五年如一日付出的厚积薄发。

在元典,拥有十余年审判经验的前法官笑称李东海“在技术领域中最懂法律”,他能流畅地与法律人就法律问题进行探讨,甚至在交流中指出资深法官都会疏忽的细节;而在与技术人员沟通法律人想实现的功能和技术实现方案时,李东海又是最值得信赖的“翻译”和架构师。


李东海,中国中文信息学会语言与知识计算专委会委员,2018年度新锐领军程序员,清华大学创新领军工程在读博士,北京华宇元典信息服务有限公司副总经理,技术总监,多项法律技术领域相关专利的发明人。
结缘

知识图谱是个很热的概念,这次会议不仅有阿里、腾讯、百度这样的大企业参加,很多技术界的nlp大牛也出席了会议,探索知识图谱自然语言处理方面的一些应用。现阶段,自然语言处理已经达到了繁荣前期,但业界认为,语音识别这样通用领域自然语言方面的应用,已经快达到了目前技术限制下的极限,而针对专业领域的自然语言处理应用方兴未艾。”

“这次大会大概有几十个演讲,在专业领域知识图谱的应用,金融占大部分,医疗占小部分,与司法相关的却只有一两个,但都做得比较浅,还在做当事人属性提取、事实拆分这类较为基础的部分,这些我们早已经有了成熟的技术,尽管不是通过知识图谱的方式实现。”

跟李东海交谈几句,就能感受到技术人员特有的谦逊平和,但谈起这个领域的话题,他又有一种显见的自信。这种自信来源于已有十余年大数据挖掘、自然语言处理相关技术研发工作经验的他,几乎每一项研发工作都与司法这个熟悉的领域相伴。

2003年,硕士毕业的李东海加入华宇集团,一干就是15年。当时的华宇集团还叫做“紫光华宇”,刚刚成立2年,所有员工加起来不到80人。

李东海至今仍清楚地记得,2003年,正是互联网最火热的时候。QQ、多媒体传输,这些应用与场景都是当时技术的难点与热点。顺应时代的热潮,李东海此前的技术研发经历也几乎都与网络传输有关。

传输交换管理平台,是李东海加入华宇后第一款比较成功的产品,这款产品在之后几年给华宇集团带来了可观的收益。

“进入华宇后,我就开始从事网络相关的技术研发工作。我认为华宇集团为法律人创造的最大价值就是在最初期把法院之间的数据连通,当时互联互通是法检领域最大的刚需。法院审理是有层级关系的,但数据却是不通的,而当时在做的数据传输交换系统,就能够解决四级法院间数据孤岛的问题,这是打破数据孤岛的一个小尝试。就像互联网,也是将一个个孤立的局域网串联在一起,让信息在更大范围内流通起来,才能发挥出更大的作用。”

技术人员留给外界的印象经常是沉默寡言不擅言辞,跟李东海接触起来,起初你也会觉得他是个典型技术人,但聊起深耕多年的领域,他又会侃侃而谈,时不时露出开朗的笑容,让人感到面前这名技术人的思维就像一尾游鱼,自由地穿梭在这片亟待深入探索的海洋中,平和、质朴又简洁的言辞总能击中问题要害。

听李东海的描述,你会发现他对于能够实现突破数据壁垒,让数据自由流通的产品给予很高评价。然而,他心中却也一直存有让机器逐渐习得法律认知能力的梦想。在AI的概念还未火热起来的时候,李东海就已经与自然语言处理技术结下了不解之缘。

李东海本科的毕业设计,是在清华大学计算机系智能技术与系统国家重点实验室完成的。当时的他就亲身参与到自然语言处理中的词性自动标注工作中,尽管这在当时非常冷门,他却从中看到了未来的潜在可能,草蛇灰线,在心中默默为从事法律人工智能埋下了伏笔。

试水

2009年,华宇集团内部进行调整,从整个集团中挑选7位技术研发骨干,组成集团内部的技术研究院。李东海第二个印象深刻的项目——法院文书智能校对系统,就是在研究院成立后完成的。

“做文书校对,其实是源于老大(现华宇软件董事长邵学)的一个想法。”提起文书校对,李东海仍然清楚记得当时的每一个细节。“研究院刚成立时,我们问老大有什么好想法,老大说他觉得可以从帮助法官校验文书着手。法官撰写裁判文书时,由于疏忽造成的文书错误经常会受人诟病,如果我们能用技术手段帮助法官做文书校对,将会节省很大一部分人力,这是我们研发这款产品的初衷。”

他敏锐地察觉到,文书智能校对,是试水法律人工智能的大好机会,然而他又总感纯粹的机器学习方案仿佛欠了火候。李东海带领团队尝试通过机器学习实现原本设计的功能。然而,仅仅是为了收集一部分最简单的标签数据,就耗费了几十个人很多天的功夫去标注,投入实在太大。为此,李东海特意回到清华,请教当时计算机科学与技术系的系主任孙茂松教授,到底应该如何将人脑里的知识固化落地。

“孙老师只问了我一句话,你们有没有已经标注好的数据?如果没有这些数据,不用想机器学习人工智能这些东西,离你们还太远。先弄到数据才是最重要的,把以往的历史数据加工成可能被机器学习的语料,才能把人脑里的知识规则化,批量的让机器实现。”

回忆起当时的困境,李东海的神情中不无遗憾。尽管因为种种限制,他没有实现以机器学习这种更有长远发展的技术方法进行产品研发的梦想,但长年的坚持,却让他迎来了这个机会。

2016年,华宇集团筹备成立一个新的子公司——华宇元典,专注于法律人工智能领域的研究,为法律人打造智能辅助产品。董事长邵学在华宇内部的通讯工具cocall上给李东海发了一条信息,问他愿不愿意加入即将成立的子公司。李东海几乎不假思索地答应了这个邀请,这其中简短的交流全程都在cocall上完成。

谈起加入元典这段颇有些传奇的过程,李东海笑得十分开心。

“当时没有想那么多,但很快就决定加入元典。虽然曾经跟劭坤、琳娜(目前担任元典CEO与COO)见过面,有过简短的交流,但也并不知道会有元典这样一个公司诞生。我其实是兴奋的,想到我能够更专注地做我想做的事,与曾是法官、检察官的法律人在同一家公司工作,和这么多优秀的人一起做我想做的事,我真的很开心。”

加入元典后,更专注于法律人工智能领域研究的李东海实现了多年来的夙愿。他在法律领域进行技术研发的扎实经验和对于法律智能发展持续多年的思考让他能够快速融入如今的行业。来自法院、检察院、律所等等具有丰富实务经验的法律人和来自顶尖法学院校的优秀法学生,也为机器学习带来了大量可用的标签数据,使得法律知识图谱的构建成为可能,他终于走上了最开始想走的,那条更为长远的路。

在众多法律人与技术人的共同努力下,元典睿核诞生了。

践行


元典睿核,是以法律知识图谱为核心,通过自然语言处理机器学习,提供法律认知能力和多种知识服务的法律人工智能平台。它是元典新人了解元典产品的第一课,睿核为各上层应用提供灵活的支撑服务,进而为用户提供法律知识智能辅助。

李东海坦言,睿核是他所做过的产品中开发难度最大的,但是价值同样也是最大的,它承载了所有的知识体系和数据。众多具有实务经验的法律人组成团队,从文本里挖掘更深层次的含义,将他们的知识与经验通过对法律文书的标记固化到系统中。

“我们技术团队和法律研究团队的所有工作都是为了睿核赋能,睿核就像培养大树的肥沃土壤,只有土壤更加肥沃,才能让这棵大树结出更多更甜的果子。”

元典产品组合图

李东海形象地打了个比方,言语间不难看出他对这款产品的看重和所倾注的心血。然而,让人感到好奇的是,作为一家科技公司的CTO,他又是如何在繁忙的管理工作中抽出时间和精力投入技术研发领域的呢?

谈起这个问题,李东海笑了起来。李东海说,他每天最多的工作就是不停和人开会,跟不同的人交流。原来他可以专注地把所有精力投入到一个项目中,但现在他要做的却是把他的技术能力倾注在不同的项目组,让每个项目组发挥出更多的价值。李东海现在的角色更像是一个专属于技术人的智库,将源源不断的经验与知识向不同的分支供给。

在承担着管理职责的同时,还肩负着技术研发的重任,在常人看来或许是件压力很大的事,但李东海不一样。

“尽管很累,但我从不觉得压力大。事情不会因为压力大而自己解决,还不如集中一段时间想办法去解决问题,比天天为这件事焦虑好得多,所以工作这么多年,我还从未体会过失眠的滋味。”李东海说得轻松,但背后承受的压力仍然可想而知。

在李东海多年的研发工作中,重要的产品还有很多,但他说起以往的产品研发经历,往往是一笔带过,并不讲述当时研发的困境,也不过分夸赞产品的成功,这些为集团带来巨大收益的产品,在他口中却显得普通非常。这也让我感到好奇,这些年来,李东海感到最满足的时刻是什么呢?

谈起这个问题,李东海罕见地陷入了沉默。思考良久,他才作出了回答。

“工作这么多年,我从未感觉到满足,或是有特别值得骄傲的时刻。我觉得每一个目标,每一项成果都是计划中应该达到的水平,从未发生意料之外的惊喜。”

李东海回答得平淡,但却着实出人意料,也许正是这种不知足引导着技术人不知疲倦的探索。10月,李东海获评第二届全球程序员节颁出的“2018年度新锐领军程序员”称号,在这样的荣誉之外,他更习惯的身份可能是另一个:清华大学创新领军工程博士项目的首批博士生。在繁忙的研发和管理之外,李东海仍然时常出现在清华校园里,追求技术带来的“新的惊喜”。

这种不畏前路、不知满足的学习精神,正如他多年前刚刚参与法律产品开发时的韧劲,不懂法律,就想方设法找资料看书学习;不理解裁判文书,就熬夜看完几百份裁判文书。

谈起自己读博想要达到的目标,李东海说:“如今的学术界和产业界隔着巨大的鸿沟,我想重新进入学术界,了解现在的技术水平到底发展到什么阶段。学术界研究的是各种算法、各种模型能够在理想数据环境下达到的最佳效果,而理想数据环境在实际场景应用中很难具备,产业界则对应用场景更加理解,想办法去找到或者创建一个合适的技术落地环境,是我去读博的一个目的。

的确,法律人工智能行业也需要将学术界与产业界的成果更好地结合,才能取得更加长足的发展。它还处于黎明阶段,要等待技术的重大突破,找到将法律知识与现在已有的自然语言处理技术更好的进行衔接的方法,也就是将知识向量化。目前自然语言处理技术已经比较好的解决了文本的向量化,但应该如何将法律知识向量化,并将其应用到文本分析中,只有解决这个问题,行业才能取得真正突破。

是否有一天,能让机器读懂案件材料,以法律人的逻辑进行分析,最后将案件事实和参考依据清楚地向人类进行展示,由人类进行最后的衡量判断?

“尽管达到这样的技术水平还有很长的距离,但路总要一步步走。元典目前以法律人去理解法律深层的逻辑,并采用专家知识工程的方式让机器可以大规模处理数据,再以机器学习的方式进行学习补充扩展,生成适应性更强的模型,最终以法律知识图谱的形式固化下来。这是一条在没有大规模现成可用标签数据供机器完全自主学习的情况下,我们目前探索出的最有可行性的路径。

“法律人工智能的未来会怎样,我们谁都无法预料,但我们最应该做的,就是怀抱一颗求知之心,为即将到来的明天做准备。做个纯粹的技术人,挺好。”

产业法律
11
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

谢谢,很有启发