微胖撰文

这个远比安防更难攻下的领域有着自己的「游戏规则」|深度

都知道中国全科医生缺口很大,但是,你知道中国法官的工作量有多可怕吗?

这是北京海淀区法院温泉(金融与清算)人民法庭陈聪慧法官团队 2017 年办理案件的部分卷宗。

去年一年,这个团队收案共计 3012 件。大多都是不太好啃的「硬骨头」,最后审结2700 件案件。这个数字相当于某些地方一个法院全院的工作量。

这并非个案。

过去的五年时间当中,法院的立案量和办案量都有很大程度的攀升。

全国审结案件共计有 8598.4 万件,同时结案的标的额现在达到了 20.2 万亿元,并且这个数字还在以每年 15%-20% 速度在增长。某些法院在年度结案上的增长速度已经达到了 40% 。

而全国法官只有 12 万人。算下来,每位法官要在三天不到的时间里完成一个案件的办理。

在这样的应用场景下,人工智能技术解决的是一个不折不扣的刚需,也是「互联网+」无法解决的问题:提升工作效率。

据报道,陈聪慧团队去年一年出具的 1440 份判决书中,有近 1100 份是通过技术手段制作完成的。

不过和 C 端业务不同,对于电子政务领域的供应商来说,高层释放出明确政策信号才意味着可靠的市场需求。

2016 年,最高人民法院院长周强正式提出要积极推动人工智能在司法领域的应用。随后,「智慧法院」这个提法出现在国务院 2017 年 7 月印发的《新一代人工智能发展规划》中。

在这样一个大的背景下,「法检信息化建设」的头部公司华宇软件于前不久正式发布了国内首个法律 AI 平台, 以及以此为基础的智慧法院产品。

法律人工智能平台可以赋能电子卷宗、证据分析等七个法院行业通用的业务服务,为法院行业智慧立案、智慧审判、智慧法庭、智慧执行、智慧审管、协同办案、电子诉讼、智慧司法等八个重点应用场景提供服务。

法律 AI 平台由睿元、智核和睿核组成。

睿元,其实就是华宇大数据管理平台,负责管理数据,也是过去技术经验的总结。

真正负责人工智能担当的,主要是后面两个部件:

智核,华宇人工智能感知平台。主要负责集成通用 AI 能力,比如,语音识别人脸识别

人脸识别可以用于多种业务应用场景,如访客登记、自动终端登录、机器人引导、窗口谈话、业务软件刷脸登录、庭审身份核实等。

而利用图像 OCR、基于深度学习的图像分类和目标检测、实体识别等技术,可针对卷宗文件实现智能识别分析。

睿核,华宇人工智能认知平台。以法律知识图谱为基础,利用自然语言理解和机器学习技术,帮助机器从自然语言描述中,认知具体的法律概念、关系主体等,即让机器能够读懂法律文书,辅助法律人开展工作,比如,实现更加精准的类案推送。

睿核也是华宇过去投资人工智能成果的集中体现。

法律人工智能平台可以赋能电子卷宗、证据分析等七个法院行业通用的业务服务,为法院行业智慧立案、智慧审判、智慧法庭、智慧执行、智慧审管、协同办案、电子诉讼、智慧司法等八个重点应用场景提供服务。

1871结构

「一系列的产品互相集成的一个庞大的复杂系统,这跟过去不一样。」北京华宇信息技术有限公司副总经理米坤告诉我们。

北京华宇信息技术有限公司副总经理米坤

目前只能实现弱人工智能

正式发布之前,这套智慧法院产品已经中标了一些法院系统的大订单,比如北京高院、甘肃高院。并在一些法院推广使用开来。

其中类案推送,是大家比较关注的一个审判辅助功能。

比如,庭审结束后,人工智能会对案情要素进行进一步提取,根据法官进一步认定的内容,给其推送更为精准的相似案例、裁判尺度、法律法规等服务,最终帮助法官完成裁判文书撰写。

从效果上来看,「可以将案例推荐匹配度从 20% 提升到 90%,实现精准推荐效果。」

不过在学界看来,目前系统所能实现的类案推送还没有真正抓住痛点。

「法官在检索的时候,对两个案件类似的兴趣不大,而且找到之后,还有大量案子裁判结果不一样,找到类似案件,对他而言反而有麻烦。」四川大学法学院王竹教授认为,法院对类似的争议焦点更感兴趣。

但在米坤看来,「俩人打架,不管是道理判断还是法律逻辑,人可以大致做一个判断,谁吃亏了,谁具有优势。但是,机器判断不出来。」

米坤认为,以争议作为痛点,很好,但找到争议点极难,尤其是用机器的方法。

目前,智慧法院的类案推送离不开华宇自研的法律知识图谱技术。

在知识密集型行业(比如法律、医疗、金融、电商等),知识图谱是系统实现一定推理能力不可或缺的步骤。虽然目前法律行业都想做这个方向,但鉴于技术难度,并非所有人都可以做出来。

知识图谱是构建法律 AI 的基石,构建法律的智库虽然很难,但我们在坚持不懈地走。」米坤说。

不过,专业领域内的知识图谱构建尚处于初级阶段,还要经历非常长时间的发展。

研发过程中,华宇做了很多试错。「最终还是要回归到弱人工智能的标注再加上机器学习。」米坤说,无监督学习的路子走不通,因为需要应用的人员不断地去使用它,但在法律行业,这种可能性基本不存在。

「如果这个案件信息回填不准,他们就不会用。」米坤说,「法官不会当小白鼠。目前来讲,应该没有其他捷径。」

目前的 AI 系统仍然是水平很低的智能化。

「你是专家,基于你的经验做一个系统,然后用了一些新的技术,比如说机器学习,让比它能力低的人,或者跟它能力相当的人也能够快速地得到一样的审判结果。」米坤解释道,

「目前来讲,只能走到这一步,还远远达不到真正基于行为、动机和数据催生人工智能。」

产品设计中的平衡

与会的清华大学法学院教授劳东燕认为,眼下的法律产品的设计和开发,可能还尚处在浅水区。

对于具体法官来说,很多时候,基于当前大量数据的类案推送没有太大意义。它们唯一的意义在于「事后控制」

比如,法官可以知道全国同类案件中,他的这种判决包括量刑的偏离程度如何。

「深水区要在案件质量上下功夫……在司法处理上,最重要的就是同案同判。」劳东燕坦言。

左二为清华大学法学院教授劳东燕

撇开技术上的实现难度不谈,从产品设计角度来说,这也是一个路径选择问题。

「选择错之后,研发出来的产品没人要,这是现在迫切要解决的问题。」米坤说。而在华宇看来,效率提升可以通过技术解决,判决质量要依赖法官素质。

「在当前案多人少的情况下,我们只能找到有效的技术手段来处理,但不影响裁判质量或者审判质量。」米坤说。

而上述矛盾,只是电子政务产品设计中需要思考的矛盾关系之一。

「过早投入、过度投入都是浪费,这个供应需求什么时候实现,其实达到平衡点很难。」米坤说。

智慧法院的智能化与移动化设计,也尽可能平衡了成熟技术与未来趋势,最大程度将公司至于一个相对主动的竞争位置。

「虽然我们也在说一定要用过去成熟的技术,但是,未来的信息技术里面,一定要有新的要素,要有业务驱动,比如提高效率。」米坤说。

「不同场景下,智能支撑着一些工具和一些应用点,这是与过去系统最大的不同。」

至于移动性,「这是一个体系化思考的结果。」米坤说。

过去的产品部署在 PC 端,但信息是流动的,网络并无墙内和墙外。现在,微信上有 7 亿人群,包含各类人群。而在 5G 时代,现在有线端的应用可能会在移动端成为常态。

「所以我觉得移动是未来很重要的一方面,作为智慧法院来讲,智能化和移动化,是很重要的两个方面。」
在行业发展趋势上,华宇认为,互联可以带动未来 3 年的司法机关信息化需求。

华宇上一代的系统,点点之间可能有协同。「十年之前,技术上(实现协同)一点没有问题,障碍完全在于数据对接不畅。」米坤说。

现在,司法机关系统出现互联趋势。最近,华宇在三个省的政法系统拿到了互联项目以及互联后的大数据分析项目。比如,贵州、浙江、 苏州政法大数据协同办案平台项目等。

这一次,华宇大胆立足于公检法司在刑事案件全流程业务角度,进行产品设计。

「从系统角度已经做好了这样的设计,只要行政命令一下,这个系统就能用。」米坤说,

「用这样的一种方式为未来管理改变做好准备,如果人家真有这个需求了,还要推倒重来,这就很被动了。」

除此之外,平台化也是一家行业头部公司会考虑的问题,平台化不是互联网公司的专利。

「技术角度上,平台化很大的好处是可以把品牌研发和需求定制做进一步的分离。让法院建立一个松而活的体系,能够持续不断根据业务的需求修改某个平台。以前是修改一个模块,对所有的模块都要重新编辑,现在不是。」

华宇也会考虑开放自己的技术平台。「如果第三方开发出好东西,只要它符合规范和审核的标准,都可以集成到华宇平台上来。」

这是个比安防门槛高得多的行业


法院数据比医疗的数据质量好很多。全国的诸多法院在经过 20 年的信息化建设后,流程数据、证据数据、文书数据、档案数据等都非常完整。

因此,一些 AI 公司也进入到这个领域。

2016 年 12 月,科大讯飞与最高人民法院信息中心达成战略合作。科大讯飞牵头用人工智能构建智慧法院超脑系统,推出包括智能语音、便民服务、大数据分析、电子卷宗、辅助办案等多类系列产品在内的智慧法院整体产品方案。

一个传统问题再度被提及:法律 G 端市场的未来格局会有什么变化?

华宇认为,和科大讯飞这样的「 AI + 行业」企业不同,华宇属于「行业 + AI 」。

「在这一行业上深厚的业务基础是与竞争对手最大的差别,对方缺乏行业积累和对业务的理解。」米坤说。

对于行业市场,核心是通过技术解决问题。打造解决方案的时候技术不是最重要,最重要的是对于客户痛点的了解。

比如,一款产品无法满足用户需求,一方面可能是供给侧的问题,比如研发时没有做深度调研和验证。但不少时候,也是政策变化太快的原因,而这种情况更为常见,也是这个行业的特殊之处。

以司法员额制为例。

员额制下的审批方式,人员比例是 1:1:1。但现在并没有不同类型、繁简程度案件下的工作机制、工作职责和工作关系。

「这些东西都没有,怎么做软件?没法做。做软件一定是一定规律、规则要求之下才能做,计算机再人工智能,也代替不了人的思考。」

而法官的文科思维与软件工程师的理工科思维之间的巨大差异,也是这个行业的一个特点。

「不同法律部门之间,隔行如隔山,法律跟技术怎么更好的融合?这是一个非常难的问题。」米坤坦言。「我们也要学习文科人的思维逻辑和方式。」

除此之外,还需要掌握一定的法律专业知识。

「我们要看人大报告,法院和检察院的报告都要看。司法解释、法律法规、政策要求、规章制度文件,我们全要看,毕竟我们能看懂。有了这些积累,我们才能把自己划为法院行业的信息化。」

截止目前,华宇业务覆盖全国 31 个省超过 3000 多家法院客户。公司派驻在法院驻地的人员有 1000 多人。

「客户有那么多需求,不管是被动的,还是主动找我们做什么事,第一时间会到我这来,我就能判断出来这个方向在哪里,在我们这经过分析加工,找到一个合适的方向去研发,去满足这样的市场需求。」米坤说。

而另一方面,我们也必须承认一个客观事实:B 端客户更换服务的决策成本很大,现实操作成本也很大。这也是无形的行业门槛。

一位高等法院的朋友曾告诉笔者,由于两套系统的关键词都不一样,在更换系统时,他曾与同事一点点手动更改输入的。「工作量非常大,换套系统的成本太高。」

「过去的 22 年,是把一个年轻人变成了满头白发的过程。」米坤感叹说,「法院业务的门槛,比安防还要高。」

除了行业积累,华宇也有自有技术。除了法律知识图谱技术,还有司法大数据融合技术。

「案件信息太多:主体信息、文书信息、证据信息,又分人证、物证。它们本来就是一个结构化、半结构化等非常复杂的数据集,又加上很多的法律法规和司法解释,司法解释又分为不同年代。怎么把这些复杂的数据以案件为中心,以诉讼主体为中心建立起关系,这本来就是一个极难的过程。」米坤说,

「它跟知识图谱有关系,如果没有这样的一个模型,就不能建立关系,两个之间是相互的过程。这块是我们很独有的技术,这是我们 20 年的积累才会做这样的模型,因为在法律方面,除我们之外,还没有人做。

目前,华宇分布在各个分子公司中从事法律人工智能、大数据研究的研发人员大约有 500 多人。研发预算每年 2 亿左右,一半与大数据、AI 相关。

虽然相比 C 端客户,获得 B 端客户相对容易些,但是华宇也有布局律师、公司法务产品市场。旗下华宇元典的律师平台正承载越来越多功能和智能服务。

「百姓市场呢?」我问道。

「中国老百姓去打官司,更愿意找个律师、找个人,而不是找个机器律师。」米坤说,

「这是个文化问题。中国人的文化根子第一是不愿打官司,第二是打官司要见到人,所以中国人基于规则这方面的社会治理生态来讲,还需要走很远,不太容易。」

产业大数据华宇法律
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

弱人工智能技术

弱人工智能(weak AI),也被称为窄AI,是专注于某一特定狭窄领域任务的人工智能。 相对于可以用来解决通用问题的强(泛)人工智能,几乎目前所有的人工智能都属于弱人工智能的范畴I。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

推荐文章
暂无评论
暂无评论~