顶级风投首次投资法律AI初创,清华团队如何撬动4千万中小企业法律服务市场?

在获得法律行业上市公司华宇软件千万级天使轮投资后,今年十月,获顶级投资机构红杉资本种子基金等创投数千万 Pre-A 轮投资。在撬动 4 千万中小企业法律服务市场的道路上,已经倒下不少先烈,幂律智能与众不同的地方有两个。

一方面是以法律知识管理平台为基础,通过合同审查、管理工具来触及更多法律人以及中小企业的产品矩阵设计策略;另一方面,拥有强大的底层工具研发能力。已经启程商业模式验证的幂律智能正力图验证这样一个思考的可行性:利用人工智能技术,将部分标准化的法律服务价格降低到一定程度,几千万中小企业的法律服务需求是否就会刚需化?


撰文 | 微胖

正式运营一年多,法律 AI 初创幂律智能第一次产品发布会定档 12 月 1 日。当天正值北京初雪过后,路边墙角、花坛仍然可见积雪,让人不禁联想到同处寒冬的资本市场。

不少投资机构在年中总结会后,做出不同程度战略调整。市场不佳,他们更愿意将钱捂在荷包里。过会项目,要么金额上限被拉低,要么过去半数即可通过,如今需要 2/3 的投票通过率。

这样的背景,又身处一贯不被资本关注的赛道,完成 Pre-A 轮融资并成为红杉资本种子基金投资的第一家严格意义上法律 AI 公司,也就显得尤为不易。

1 两个老问题,两款新产品

幂律智能这次带来了两款法律相关 AI 产品:法律知识管理协作系统 MeBox、合同智能审查产品 MeCheck,试图解决法律人面临的两个老问题:知识管理以及合同审查。

先从更具基础意义的 MeBox 讲起。

律师最有价值的地方在于掌握和可调用知识的广度和深度。对于律所来说,除了人、财、物,知识已经成为各大律师事务所第四类资源,也是一个非常重要的竞争壁垒。一些律所负责人甚至毫不讳言,今后胜出的律所一定是知识管理好的律所。

但是,目前全国从事知识管理的律所估计占比不到 20%,北京道可特律师事务主任所刘光超估算了一下,在知识管理方面做得不错的北京律所不到 5%。

原因并不复杂。一方面,很多律师并不愿意将自己吃饭的本事轻易分享于人。而且律所团队之间、客户与律所之间、总所与分所之间也有很多规矩,出于安全考虑,他们也不敢轻易采用这样的产品。

另一方面,从市场供给来看,现有的兵器也很少有趁手的,以至于作为一家 300 多人的中型律所,道可特选择自建平台。不过,刘光超也坦言自研过程非常艰辛。

但是,MeBox 给了刘光超全然一新的感受。这可能跟他们技术思维有关,他认为,法律人思维很难做好这类产品。



MeBox 不仅可以简单地将分散在不同源头(个人文件、共享资料、案件资料、邮件、微信等)、不同格式文档同步到协作平台,还能通过自研搜索引擎实现快速的知识获取。

做知识管理,并非仅仅是为了积累知识,更重要的是,需要某方面知识时可以迅速地找到,并加以运用。如果整理后知识无法被快速简便地检索到,知识管理就是失败的。

因此,基于深度语义分析技术(关键词抽取、同义词扩展、语义匹配等)的搜索服务,也是这款产品一个重要亮点。

搜索引擎不仅可以准确识别用户搜索意图,并根据语义进行匹配,也能支持自然语言形式模糊检索,法律人再也不用担心找不到很久以前的记忆模糊的文档资料。

知识得到积累、获取之后,还需要演进。除了能够进行文档相关的共享协作,产品也提供了以案件为中心案件办理全流程的功能,包括契合法律工作逻辑的便捷立案、案件指引、模板自动填充、自动归档等功能,从而实现知识的进化。


发布会当天,还发布了一款智能合同审查 MeCheck。对于所有法律人来说,为什么要做这款工具,几乎不言自明。

合同,不仅经济活动的细胞,也是知识管理的基本内容。中国每年签署的电子合同高达 6,680,000,000,仅类似中国平安这样的大公司,每年电子合同签署量已高达上亿份。然而,律师或者法务工作人员一天仅能审理十几份合同,而且标准无法始终如一。

MeCheck 依靠 NLP 以及知识图谱能力,精准定位合同风险点。当前已经实现了货物买卖合同中 49 类条款的识别、数百种要素的抽取、超过 150 个风险点的审查,综合准确率达到 95% 以上。


2 到底有什么不一样?

知识管理平台 MeBox 面向律所、公司法务门,旨在帮助他们做好知识管理和沉淀。所谓「沉淀」,本质上就是数据数字化和结构化过程。基础打好了,才适合建楼,比如开发文档比对、文本纠错、自动排版、文字识别、计算工具等法律知识管理必备小工具。

事实上,早在一年多之前,他们就决定涉足法律知识管理,尽管当时并没有一个非常具体的产品构思。「知识管理平台最大吸引力就在于,能将数据、知识依照规定好的格式收集起来。数据结构化这个基础问题解决了,才谈得了提供上层的增值服务。」幂律智能 CEO 涂存超告诉我们。

MeBox 仅仅开了一个头,更多小工具的开发需要第三方参与进来。「它(MeBox)更像是律所的基础设施。就像电力之于机器,有了电,才能运转起来功能丰富多样的电力工具。」

尽管合同审查 MeCheck 一开始也是面向律所、法务,辅助他们进行合同审查,但是,以后会延伸到合同管理。这意味着一方面,相比 MeBox,能够触及更大的市场,直接接触到法律服务需求方。

另一方面,Mebox 的基础文档管理功能,其实可以复用到合同产品中。「合同审查功能和知识管理系统的一些功能想结合,来搭建合同管理系统。」涂存超解释道。MeCheck产品形态更轻,既可单独作为产品,还可以搭载在合同管理系统里,或者MeBox 里辅助审查。

如果说,产品设计思路将幂律智能的两款产品与其他法律 AI 产品显著区别开来,那么,对底层工具建设的注重,又让幂律与其他初创区别开来。

从最初自建数据标注众包平台、搜索再到 Lawtech 技术平台,「薄发」之前的他们一直致力于底层工具的「厚积」。


目前,幂律智能已搭建自己的数据平台,其中的在线众包标注平台,至今已积累发布 500 余个任务,积累了五十余万高质量标注数据。

「做搜索,也是因为这也代表底层能力。底层能力打磨好了,具体赋能到什么样的具体产品,选择余地会很大。」涂存超解释说。

至于 Lawtech 开发平台,集中了做产品过程中被不断挖掘出的可能复用的通用技术模块。比如分词、词性标注命名实体识别、文本分类等。

将通用技术沉淀到产品底层的同时,他们也会根据具体产品需求,因地制宜地开发新技术。

比如,最开始的数据标注平台是 web 端,完全在网页上进行数据标注。决定做智能合同审查后,他们基于原有的平台开发了一个 word 标注插件。

审查合同通常是在 word 环境中进行,合同格式本身包含了非常重要的信息。字体非常大、居中的一句话,可能是一个标题,标题往往决定了接下来的几段话具体是什么类型的条款。

所以,我们在数据标注阶段就尊重了这种原始格式,算法处理完之后,仍然将原始格式呈现给用户,涂存超解释道。幂律也用这个插件标注了非常多合同相关数据,并用这些数据训练自己的一些合同审查相关算法。

在涂存超看来,打造智能合同审查产品最大的收获在于将整个流程验证通了。

比如,一开始投入大量精力做数据标注;为了更好标注合同数据,单独开发 word 插件;知识图谱和审查点怎么表述,才适合机器来解决;通过怎么样的算法框架来实现,才具有更好的可扩展性;包括最后呈现给大家的产品形态,怎么样更符合法律人审查合同的呈现和交互需求。

尽管期间经历了好几次推倒重来,但最终他们得到了可复用的算法框架。在修改一些模块后,就能复用到其他合同,大大降低合同类型扩展的成本。

事实上,这也是幂律智能与法律人团队的另一个区别:后者更偏爱基于规则的方法。其最大的弊端在于适应性和可扩展性差。

假设按照基于的规则方法,做 A 类合同需要半年,当扩展到 B 类、C 类合同时,仍然需要花费半年时间,这是一个非常线性的过程,非常低效,而且通过枚举规则的方法来审查合同,各种特殊情形永远梳理不完。

3 何以打动投资人?

行文至此,笔者已经回答了这个小标题问题的一部分,但不是最重要的部分。最打动投资人的到底是什么?回答之前,不妨先了解一下法律科技长期不受待见的痛点在哪里。

事实上,融资过程中的涂存超也深刻感受到对这个行业真正感兴趣的人非常少。「AI 的落地,大家关注的还是比较火的方向,金融、教育、医疗等,」涂存超说,「一直真正关注并持续投资法律赛道的,几乎没有。」

究其根本,「这个行业的天花板大家都算得很清楚,比其他行业小很多。」如果知识管理系统客户群体仅限于律所和法务部门,市场天花板显而易见:

中国 10 人以上律所的可能有 1 万家左右,具备一定规模的公司才有自己的法务部门,整个体量很容易算出来。定价后,即使按照 50%、25% 的市场渗透率,最后能卖多少钱,一目了然。

放眼国内外经验,从屈指可数的几只独角兽和上市公司来看,我们至少可以归纳出两方面重要信息。首先,C 端公司鲜有成功,为数不多的佼佼者都是 2B 公司。

其次,市场集中三个领域。分别是电子签章(比如,上市公司 DocuSign)、颠覆传统律师事务所工作流程(比如,上市公司 Axiom)以及针对中小企业的法律服务(独角兽 Legalzoom)。

严格说来,电子签章并不算法律 AI 创业类创业公司,除非未来业务向上游扩展到合同管理。因此,对于中国法律 AI 初创来说,想要成长为一家上市公司,服务中小企业是最有可能的一条路。

「有大型法务部门的公司、大型红圈所、规模所,他们有多少,都能数得出来的。」涂存超坦言。与之相对,中国 4000 多万中小企业很难获得有效的法律服务,中国律师仅四十多万,远供不应求。

他们最关心的是服务价格。7 万块的装修合同,谁愿意出几千块请律师审查合同,看看是否有重大条款缺失呢?

「小公司就是想着省钱,(他们)不知道他们不知道的事情。」LegalZoom 联合创始人 Brian Liu 在接受机器之心专访时,曾谈及创办这家独角兽的初衷。

比如,很多中小企甚至不知道什么时候要找律师帮忙。即使会从网上下载模本,也很难自己判断好坏,即便修改,也无从下手。如果涉及商标、知识产权等比较复杂的问题,他们更容易手足无措。

目前,无论是互联网巨头还是投资人都非常关注企业服务,除了财务、人事等这些容易理解的服务,大家也在思考法务到底能不能成为中小企业服务的一个刚需?对此,分歧仍然很大。

不过,在涂存超看来,广大中小企业是否需要法律服务,是一个代价问题。如果审核一份标的 7 万元的装修合同,要支付 2000 元给律师,确实够不上刚需;降到 1000 元,也不大可能构成刚需。如果降到几百块甚至几十块呢?大家很可能愿意购买服务,避开合同风险。

利用人工智能技术,将标准化的法律服务价格降低到一定程度,几千万中小企业的法律服务需求是否就会刚需化?这正是幂律智能试图探索的问题。

接下来,幂律智能会继续扩充更多合同类型,从合同审查自然延伸到合同管理,通过为中小企业提供一个相对完整的合同解决方案,降低中小企业获取法律服务的门槛,让法律服务刚需化,这应该才是打动顶级风投的根本原因。

4 法律人、AI 人还是 Entrepreneur?

从本科到博士的 9 年时间里,涂存超和公司 COO 张天扬亲历了人工智能的浪潮,切身经历了很多过去不可能完成的任务,在新的技术驱动和赋能下变成现实。同时,他们也清楚看到,在信息化的基础上才能有 AI 的星火点点,然后,才有燎原的可能。

从一年半之前多少有点「飘」在天上,到如今很接地气,涂存超感慨良多。比如,做产品,永远不是单个模型和算法就能搞定的事情,也没有干净、整理好的数据集现成等着你;做产品要考虑地面面俱到,因为根本不存在标准、理性用户。

如今,这支团队已经发展到二十七、八人,绝大多数都是研发人员。由于已经进入商业验证阶段,接下来会有更多销售加入进来。

当大家纷纭到底谁能做好法律 AI 公司,法律人还是人工智能研究者时,或许,现有的选项都是错的。

当年,身为伯克利法学院高材生的 Brian Liu 打算创办 LegalZoom,VC 总是喜欢问他一个问题,你是读法律的,为什么会去创业?每次听到这个,他都不开心。「我不认为我是一位律师,我是一个创业者,企业家(entrepreneur)。」他曾告诉笔者。

Brian Liu 也有些羡慕中国的法律创业者,因为市场不仅潜力巨大,而且就像一张白纸。在中国,能找到市场阿基米德点并将之撬动的,也只有一种人——真正的创新者、(涉及极大风险的)企业家,无论他的背景来自何方。

产业语义分析模型优化知识管理红杉资本法律AI
2
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

联想集团机构

联想集团是1984年中国科学院计算技术研究所投资20万元人民币,由11名科技人员创办,是中国的一家在信息产业内多元化发展的大型企业集团,和富有创新性的国际化的科技公司。 从1996年开始,联想电脑销量一直位居中国国内市场首位;2005年,联想集团收购IBM PC(Personal computer,个人电脑)事业部;2013年,联想电脑销售量升居世界第一,成为全球最大的PC生产厂商。2014年10月,联想集团宣布了该公司已经完成对摩托罗拉移动的收购。 作为全球电脑市场的领导企业,联想从事开发、制造并销售可靠的、安全易用的技术产品及优质专业的服务,帮助全球客户和合作伙伴取得成功。联想公司主要生产台式电脑、服务器、笔记本电脑、智能电视、打印机、掌上电脑、主板、手机、一体机电脑等商品。 自2014年4月1日起, 联想集团成立了四个新的、相对独立的业务集团,分别是PC业务集团、移动业务集团、企业级业务集团、云服务业务集团。2016年8月,全国工商联发布“2016中国民营企业500强”榜单,联想名列第四。 2018年12月,世界品牌实验室编制的《2018世界品牌500强》揭晓,排名第102。

中国平安机构

平安集团1988年成立于深圳,发展至今已跻身为国内三大综合金融集团之一,拥有30多家子公司。公司以“金融+科技”、“金融+生态”的发展模式,构建“金融服务、医疗健康、汽车服务、房产金融、城市服务”五大生态圈,致力于成为国际领先的科技型个人金融生活服务集团。2018年,公司营业收入破万亿,净利润超千亿,个人金融客户数达1.84亿,互联网用户约5.38亿,员工人数达180万,位列《财富》世界500强29位;2019年位列《福布斯》2000强第7位。

https://www.pingan.com/
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
命名实体识技术

命名实体识别(英语:Named Entity Recognition,简称NER),又称作专名识别、命名实体,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,包括人名、地名等。

推荐文章
暂无评论
暂无评论~