阿里来了位技术新童鞋,一秒K.O八位律师

阿里妹导读:批改作文、同声翻译、制作海报……人工智能技术已经越来越多地运用在我们的日常生活中。而在法务领域,除了国外LawGeex在多个法务领域的应用外,目前在国内暂无成熟运作产品。

最近,阿里巴巴信息平台企业数据智能部的工程师们,悄悄解锁了这项成就。下面我们一起来看看。

AI与法务,会擦出怎样的火花?

日前在阿里巴巴内部,进行了这样一场特殊的“比赛”。600份在线协议,8位专业律师用了一周时间完成审核,而人工智能仅用时1秒,并且在这600份协议中,标记出的问题准确率达到100%。

这是阿里巴巴信息平台企业数据智能部的工程师们,自主研发的智能合同诊断系统,用AI代替法务进行互联网在线协议的审核工作。究竟AI在法务领域如何运用?背后有哪些技术原理?以下是我们给出的解决方案。

背景

互联网背景下的消费者权益保护成为大众关注的新焦点。这其中就包括了客户服务协议、用户隐私协议等消费者与运营商签署的互联网在线协议问题。阿里巴巴因为业务线众多,对于此类协议的审查与更新工作更是一项庞大工程。

目前人工审核一份在线协议的平均时长在30分钟左右,并且由于文字量大、规则多,人工检查不可能100%覆盖,人工审核标准不够统一。有没有可能让AI来代替法务进行审核工作?在这样的背景下,智能合同诊断系统上线了。

这套智能合同诊断系统主要做两件事,一是判断出不该出现的内容(如:违反法律法规的违禁词、侵犯消费者权限的条款、模糊表述等);二是判断哪些是原本应该出现的内容,并给出修改建议或推荐用词。

智能合同诊断系统检查出风险点,并给出推荐表述

看似简单,但实际在系统学习过程中却困难重重:

1、法律语言表达和自然语言的差异性

目前普遍在做的NLP应用,大部分是基于自然语言进行处理。例如社交网络语言,更加接近人们对话的用语表达。而法律用语和自然语言用语之间存在较大差异,法律语言通常有其特定领域的表达规范和逻辑,和我们通常的自然语言表述有较大差异。这就导致了现有的研究成果无法直接应用于法务领域,需要做特定领域的迁移。

2、技术和业务场景的鸿沟

如果不具备法务法律领域相关知识基础,有好的NLP技术也不一定能在法务领域落地。能够将法务领域需求抽象并和技术相结合,具有很大挑战,需要跨领域人才和多领域人才密切配合。

3、标注数据的稀缺性

在法务领域,数据十分稀缺,而且往往涉及到敏感信息和商业机密,导致了数据无法共享。有些场景仅有少量标注数据。

4、较高的准确性要求

法务领域对算法指标要求较高,特别有些场景对算法的召回率有严格要求,因为一旦漏掉关键信息有可能造成较大的法律风险;此外,法务很多场景对算法可解释性要求较高,因此算法不但要知其然还要知其所以然。

解决方案

在搭建系统时,第一步就是针对法务领域建立行业词库和知识图谱

只有首先教会系统理解法律术语,而不是自然语言,接下来才能更好训练系统去理解法律概念。基于阿里巴巴大量的在线协议、合同、诉讼等各种法律文书,采用大规模无监督的短语挖掘方法 Phrase Mining[1,2] 能自动从文书中提取出行业关联度较强的短语,例如:“包括但不限于”、“授权委托书”、“过失侵权行为”等;

同时,法务专家会根据特定业务场景梳理出业务规则,比如在在线协议领域,就标注出一份禁止用语清单,以及出现相关禁用语的对应推荐词可供机器学习。比如:“一经公告、立即生效”的推荐表述为“公告之后的7日后生效”等。针对大量这些法务规则输入,从技术角度解析为知识图谱上的点,变为计算机可以处理的格式。

词的向量表示

基于大规模训练的通用词向量几乎对所有NLP任务都有显著帮助。而针对法务领域而言,由于有其特定的领域特性,我们在通用的词向量基础上,加入了大量法务领域文书的语料,使得学习到的词向量在法务领域表现更为突出。

普通的词向量模型大多采用 Word2Vec 或者 GloVe 训练得到,最近的一项研究[3]发现基于 context 的词向量 ELMo 能够进一步提升帮助多个NLP 任务。

基于context的词向量本质是语言模型的词向量,词向量不仅仅是词本身的函数,也同时是句子里面其他词以及序列位置的函数。在法务领域中我们也尝试了ELMo 语言模型得到词向量,提升了模型性能。

冷启动和快速样本标注

标注数据一直是机器学习问题最重要的要素之一,只有拥有了大量标注数据才能训练得到比较好的模型。然而在法务领域,标注数据的获取是非常昂贵的,需要具备法律专业的人士进行标注。

为了取得效率和成本的权衡,我们首先基于专家输入的规则和知识图谱,构建了基于规则系统的自动标注服务,能够对存量数据进行自动打标。另一方面,可以替换关键词,自动生成标注数据。例如:“一经公告、立即生效”,可以将“立即”替换为“立刻”、“立马”、“即刻”等,通过这种方式可以生成大量的标注数据。

主动学习。规则毕竟是有限的,虽然可以解决一部分问题,但是无法解决模型的泛化能力,最终还是需要依赖一部分人工标注。为了减少人工标注成本,可以采用主动学习方法。每次仅需要人工标注最不确定的那些少量样本就可以很大程度提升模型的性能。

多模型组合

文本分类技术也经历了从传统基于规则、人工特征到目前基于深度学习的技术演变过程。目前比较流行的技术方案是基于RNN的序列模型、基于CNN的模型,以及在此基础上演化而来的各种变种,比如结合注意力(attention)机制,用预训练的词嵌入(Word Embedding)等方法。

在法务垂直领域中,我们利用 ELMo 构建了领域特性的词向量作为模型的输入,针对在线协议审查这一具体问题设计了一种结合CNN和RNN的深度神经网络:C-GRU模型。不仅充分捕捉了核心词与周围词的关系,也解决了长句依赖问题。

深度学习模型虽然能较好解决违规表述的分类问题,但是由于模型对于用户而言是黑盒,可解释性差。在线协议智能审核不仅要找到违规的条款表述,还需要定位到具体哪些词语引起的,以及需要改成什么样的才是推荐的表述。

因此我们的最终方案采取深度学习模型负责高召回,将所有可能产生违规表述的条款检测出来。然后采用句法分析和规则方法对条款进行解析,定位到具体违规表述的位置和推荐表达。这种方案的优点是利用深度学习提高召回率,用规则进行精确定位。

目前在线协议AI诊断系统除了极大提升协议审核效率,实现秒级审核速度,平均准确率在94%以上,每年相当于节省130人日的工作量。

未来规划

近年来,以深度学习自然语言处理为代表的人工智能技术取得巨大突破,也开始在法律智能领域崭露头角,受到学术界和产业界的广泛关注。智能合同诊断只是我们在智能法务领域的第一步探索,除此之外,更多在合同、诉讼文书以及裁决文书上的工作正在进行中。

在技术上,我们进一步和阿里巴巴机器智能技术(MIT) 合作共建,加强在行业知识图谱构建、机器阅读理解以及信息抽取技术在法律领域应用的研究与探索。沉淀法律领域基础数据资源,构建领域特点的自然语言处理平台,共同服务于多样化的法律业务中。

除了自然语言处理技术之外,我们还会在音视频技术上加大投入,如图像识别,光学字符识别(OCR)、手写字符识别、ASR等。用于处理不同类型的法律材料,解决自然语言处理上游多源信息输入问题。我们的最终目标是构建全链路全能力的法务AI能力。

相信法务AI能力的建设和完善能够服务于广大普通用户、律师、法院等法律行业从业者。

阿里技术
阿里技术

分享阿里巴巴的技术创新、实战案例、经验总结,内容同步于微信公众号“阿里技术”。

专栏二维码
产业手写识别OCR深度学习文本分类机器学习知识图谱NLP阿里巴巴律师法务
4
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

光学字符识别技术

光学字符识别是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。在这个过程中,手写的、打印的等多种类型的图像被转换为机器编码的文本,这些含有文字信息的图像可以是扫描而来,也可以是场景文本——如照片中出现的广告牌文字 (scene text),或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法,可以对其进行电子编辑、搜索、更紧凑地存储、在线显示,并用于认知计算、机器翻译、(提取)文本到语音、 关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

主动学习技术

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~