大陆唯一晋级全球决赛团队: 比硬核AI更重要的是你的商业模式 | 独家

硬核科技并不是大赛青睐的法律创新项目的关键要素,坚实的商业模式并具备切实可行的维护方案才是最重要的。然而,和国外不同的是,中国的法律创新还是要靠国家主导下国家队的技术突破。

 | 微胖

2019年5月4日,历经三个月、两轮赛程,全球十二支法律科技团队终于会师纽约,展开本届全球法律黑客松最终一轮角逐。

一年前,全球顶级人工智能平台 IBMWaston ,法律区块链领域领军企业 Integra 等单位发起了首届全球法律黑客松赛事。作为全球规模最大的法律黑客松赛事,参赛地区和队伍遍布全球六大洲、五十多个城市,根据规则,所有参赛团队同时开赛,要在 51 小时关门时间中,完成的法律科技程序开发。


虽然和去年一样,美国仍然是最大团队输入国,不过,今年冠军却与美国无缘。中国有两支队伍进入决赛,分别是武汉赛区冠军Panda Run和香港赛区冠军 Access our community,虽最终均与冠军失之交臂,但有两支队伍闯入决赛已属突破。中国香港赛区冠军已经连续两届闯入决赛,去年还曾斩获公共服务(public sector)组冠军。

不过,和去年只有两个分组不同(商业组和公共服务组),今年大赛有三个分组——商业组(progressing the business law)、公共服务组(public ) 以及新开设的女子组(Global Rise Of Women in LegalTech ,GROWL)。

“熊猫滚滚”的潘悦律师告诉机器之心,女子组专门针对团队领导为女性的参赛者,也是大赛鼓励女性参与法律科技领域的一个重要举措,香港赛区冠军进入的是女子组决赛。

最终,商业组冠军由罗马尼亚团队获得,他们的作品是一支类似微信小程序,可以直接在Facebook 上打开使用的软件,为在海外旅行的游客提供法律帮助。

比如,当游客不确定能否穿短裙进入寺庙、食用某种食物,可以快速咨询并得到答案。

公共服务小组冠军由德国队取得,他们开发了一款利用OCR、深度学习技术,将晦涩政府公文中的核心信息翻译为大白话的小工具。

女子组冠军由波兰队获得,他们设计了一款辅助律师书写文书的智能 Word 插件。为了保证文书规格的精准,训练的数据集并非来自网络,而是律师或律所自有文本。

笔者发现,公共服务领域的法律科技创新,最受青睐的应用仍然是“翻译”类工具,将法律术语转化为普通人都能明白的表述。

比如,无论是去年的大赢家、法律界Siri 的RightsNow,还是香港团队的Decoding Law,抑或今年德国团队的Uothority ,都是在做类似的工作。

需要注意的是,这类工作具体到中国,其实就是在做所谓的普法,很大程度属于司法部职能范围。中国也主要是靠国家队来做这个事情。比如,政府拿钱征集民间技术力量打造的12348网站,是目前最重要的普法渠道之一,其中,智能咨询板块已经出具了70多万份法律意见书。

至于商业部分,获奖团队涉及的领域明显更广泛一些。

比如,去年的两支获奖队伍关注的是如何将消费者获取律师服务线上化、效率化;以及如何将用户要求自己管理数据的程序极简化。今年关注的则是如何为正在国外旅游的消费者提供法律帮助。

不过,无论是公共服务还是商业部分,所有获奖脑洞都有一个共同点:无论出自哪个国家团队,设计在其他国家也是可行的。也就是说,这应该是一款面向全球市场的可行设计。

明星法律科技公司NeotaLogic 和某律所律师嘉宾在决赛期间接受采访时,也谈及他们眼中的法律科技项目必须具备两个关键要素, “有着坚实的商业模式并有非常现实的维护方案。

决赛结束后,机器之心联系到“熊猫滚滚”成员潘悦律师,简单聊了聊这次纽约之行以及他们对法律科技行业的看法。

机器之心:这次纽约之行最大的感受是什么?

潘悦:有很多,最大感受是中西文化的巨大差异。我举几个例子。

比赛时,我们一直希望将技术做得比较硬核,包括香港团队也是类似思路,尽量将人工智能这样的先进技术融合到项目中。但是,从最后获胜团队的作品来看,我们发现技术有多硬核,并不重要,评委更看重项目能否在短时间内被人理解、好不好用、潜在用户是否广阔。其实,在评分中,技术分所占比例也不高,诸如市场定位、商业模式等内容占比更高。

我们所在的商业组冠军(罗马尼亚)做了一款给国外游客提供法律帮助的软件,就像微信小程序一样,搜索加一个知识库就能搞定,但是,评委能迅速看懂,我也用了,确实好用。

另外,比赛更看重这个团队的表现,比如Leader的presentation、团队协作,是在给团队打分,而不仅仅是给这个项目,大家也更享受这个过程,而不是关注输赢。

赛程方面,我们也有比较深的感受。Gala 开始会有一个一小时鸡尾酒会。酒会上,你可以用比较随意轻松的方式和大家聊你的项目。但是,我们一直以为接下来的五分钟Presentation 环节才是真正比赛,所以,我们几乎将所有精力都倾注到这个五分钟的环节中了,后来才知道,鸡尾酒会也是比赛的一部分,和你交流的人中会有评委。

总体来说,我们感觉华人还是很厉害。中国有两支队伍进入了决赛,到了纽约,我们发现海外团队里也很多华裔,有的已经是第四代华裔,我们仍然可以用中文交流。

另外,还有一个很有趣的地方,就是美国对于着装的重视。大会先后发了三封邮件都提到了晚宴的着装要求:Dress Code: Semi-Formal,意思是着装要求:半正式的;而且明确说明女士Ladies - Cocktail attire and above,就是鸡尾酒礼服或者更正式的;男士Gentlemen - Suits or Sport Coats (both with a tie),西装或运动外套(领带)。真的很出乎意料,比赛时大家都穿得很正式,很漂亮,一点都不极客,活动结束后,大家又接着去了酒吧,就像一场聚会。

机器之心:比赛时,你们做了一款辅助律师诉讼的智能产品(魔法卷宗),为什么想做这个?

潘悦:我们是一家哈尔滨的法律科技公司,主要是给公司做企业法务风控产品和解决方案。为了挑战自己,我们这次没有选择成熟的针对企业的法律科技项目。而是将目光投向了律师市场。

我们在调研中发现,现有的律师效率工具基本上都是流程驱动的,一个案件被分解成若干阶段,每个阶段又有若干任务。这个方向是错误的,因为律师并不是流水线的工人,我们的工作追求的不是流程完备,我们要的是赢、是结果好。律师的工作是典型的成果驱动的。律师的工作成果是什么?是观点、意见,它的载体就是法律文书。因此,我们希望可以提供这样一款工具,它是文档驱动的,可以协助律师完成法律文书的撰写、证据的整理分析、观点的提炼总结,通过人工智能技术的应用,这些工作可以自动完成。

我们希望软件可以帮助律师的工作,而不是管理律师的工作。 半决赛中,评委对于这个产品思路给与了肯定,我们也是凭借这个从半决赛中胜出。在比赛中,律师的反应也是非常积极的,现在已经有30多家律所注册成为测试用户。

机器之心:去年比赛中,中国团队有尝试区块链技术的,国外团队也有涉及区块链技术的,今年几乎看不到涉及区块链的参赛项目,为什么会这样?

潘悦:是的,可能是因为热度降低了。如今,区块链已经不是一个要不要采用的问题,而是一个必然趋势。我个人认为,在一些领域,合同去纸质化一定是趋势,比如零售业。其实,现在大B企业(比如淘宝、京东、电信)等的合同已经采用电子订单形式,一般B2B因为成本问题,合同大多还是采用纸质。不过未来,合同全生命流程肯定都会电子化,被记录在区块链,无法串改,遇到纠纷,直接调取证据即可,这是一个必然的方向。真到实现这一点的那一天,电子化审判也能实现了。但是归根结底,区块链只是一项技术,但是它不是一个时代。这一点区块链人工智能不是在一个量级。

机器之心:去年我们还有做定罪量刑的,国外还有涉及假释问题的,今年已经完全看不到刑法相关的项目了。

潘悦:我觉得首先是个通用性的问题,如果只能局限于本土法律制度的项目,很难受到评委的青睐,不能太地方化。另外,做定罪量刑,无论是对数据还是技术,要求都比较高,团队负荷会比较大,所以很少会有人选择做了。

机器之心:感觉中西法律科技创新有很大不同,在中国,创新更多由官方主导,比如智慧法院项目,很少见资本进来,西方更多是市场主导,你们为什么选择进入这个领域?

潘悦:据我所知,资本不愿意进来是因为天花板太低,按照2019年3月司法部的最新数字,全国共有42.6万名执业律师,就算这些律师全部都用你的产品,能有多大的市场?何况你也不可能占领全部市场。就像你刚才聊的,技术类人才进入法律科技领域,是看到了技术洼地,但在我们律师看来,这是个生存还是死亡的问题。现在的法律服务就像中医,凭经验,我们预测未来的法律服务应该以数据为基础,就像西医。不变革意味着死亡,我们是站在趋势上看这个问题。

区块链技术不同,我们认为未来将进入一个人工智能时代,目前关于人工智能的研发普遍聚焦在了图像识别领域,但是我们认为自然语言识别领域会是一个突破点,在这个领域,法律有先天的优势。因为法律本身就是代码,它的形式通常是概念、禁止或许可指令,它更有可能被机器所理解。这也是我们正在做的,设计了一种半结构化的形式语言ZAML。利用法律语言的专业性和逻辑性比较强的特点,将法律语言翻译成半结构化的形式语言,使得法律语言,包括法律、合同,都可以像代码一样,做静态分析,写单元测试,甚至运行起来。该技术目前已经在GitHub上开源。

机器之心:目前持有你这样看法的律师虽然不算少,但真正愿意为法律科技产品付费的就少多了。

潘悦:是那因为没有过硬的技术产品,现在的很多产品其实就是土布机加个马达,这只是小的创新,离颠覆性的革命还有很远的距离。律师不是价格敏感型客户,他们不是不愿意付费,而是不愿意使用。而不愿意使用的根源,是产品还远远不够智能,没有满足律师真正的需要。这个领域要做到精准,必须要做知识图谱。比如,我们在合同智能审核,也做了知识图谱,但仅仅买卖合同就包含很多种类,要对所有种类的买卖合同做知识图谱,这个成本得多高。一个律所如果自己做研发,就算再有钱,拿一个亿出来搞AI研发,这个数字也不算多。

我们目前正在做一个项目,一个基于机器学习的法律研究工具,用户在使用过程中我们可以将法律法规和日常的概念联系起来,这个数据是非常有用的,它不光可以提升法律检索的质量,而且日后还可以用于建立知识图谱。这也是一个浩大的工程。但是任何一个自己不产生数据的公司都不是一个真正意义的人工智能公司,虽然很难,我们也会坚持做下去。同时我们也很期待,有更多的团队,能够在这个方向有所产出。

法律人工智能发展的主要瓶颈在于数据,我们希望官方可以开放出更多的数据来。上一届中国法研杯的比赛,官方就开放出了大量的训练数据。我们可以看到在有了数据之后技术领域的突破:罪名预测与相关法条推荐的准确率可达 90% 左右,这个数字已经很厉害了,比人类的水平还高,已经展现出中国在法律人工智能领域的实力。

我们之前也接触过顶尖院校,他们做的对话系统基础技术已经做的很好,很成熟,但是咨询法律问题效果不好,主要是因为高质量的法律问答是律师收入来源,需要付费,不可能随便从网上抓取到,这方面正是我们擅长的,做基础技术研究的人不会为了法律再往纵深出走,这是我们的合作机会。所以,一旦技术取得突破,行业立刻会有很大改善。

机器之心:有观点认为,未来竞争胜出的会是人机耦合最好的团队,你们怎么看?

潘悦:你看过孙俪主演的《那时花开月正圆》吧?中国的土布正在遭受洋人机械化生产出来的样布的冲击,孙俪只好将自己家的土布卖到更加偏远的市场,但是她也很清楚过两年,这个市场也会被洋布占领。他们最后能够活下来是因为孙俪最早引进了洋布生产线。对于律所来说,新技术的出现意味着一个技术归零时代的到来,行业重新洗牌,谁先引进先进的生产线,谁就有可能最终赢得市场。

产业法律AI
1
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东商城、京东金融、拍拍网、京东智能、O2O及海外事业部等。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作,1号店并入京东。

区块链技术技术

所谓区块链技术,简称BT(Blockchain technology),也被称之为分布式账本技术,是一种互联网数据库技术,其特点是去中心化、公开透明,让每个人均可参与数据库记录

暂无评论
暂无评论~