鲍捷作者

智能金融系统的构建

本文为文因互联 CEO 鲍捷博士于中国国际大数据产业博览会(以下简称数博会)智能金融发展分论坛所做演讲。数博会由贵州省金融办、贵阳市金融办指导,华创证券承办。

作者:

鲍捷博士,文因互联 CEO。拥有20年学术界和工业界的相关经验。美国Iowa State University人工智能博士,RPI博士后,MIT访问研究员,W3C OWL(Web本体语言)工作组成员,前三星美国研发中心研究员,三星问答系统SVoice第二代系统核心设计师。主要研究领域涵盖人工智能的诸多分支,包括机器学习神经网络数据挖掘自然语言处理、形式推理、语义网本体工程等,发表了70多篇领域内相关论文。是中文信息学会语言与知识计算专委会委员,中国计算机协会会刊编委,W3C顾问会员会代表。2010年以来关注金融智能化的研究和应用,成果有XBRL语义模型,基于知识图谱的基本面分析、金融问答引擎、财务报告自动化提取、自动化监管等。

以下为演讲全文:

鲍捷博士:大家好,我今天分享的主题是“智能金融系统的构建”。

2015年回国那会儿大家都在问我,是不是做互联网金融的,但最近一年半的时间更多谈人工智能和智能金融。这两者之间有关系的,我称为Fintech的上半场和下半场。

Fintech从强调“触达”的上半场走入了强调重构的下半场。

上半场互联网金融具备低成本、无边界触达的特点,使得金融服务的客户群体扩大至从前未获传统金融服务覆盖的群体,这也是互联网金融业迅速壮大的基础。但在此过程中流量转化是关键,简单的用户转移很难带来持久的发展。 

相较于上半场强调金融业务旧模式的升级,下半场则强调技术的创新,不仅仅是对传统业务进行扩张,甚至也是对很多原来不存在的一些产品,一些不存在的业务。你会突然发现它已经可以开始做了。

从现在常在媒体看到的话题讲,涉及的核心技术包括人工智能、大数据和云计算等,主要产品和服务形式包括智能投研、智能投顾、大数据征信、电子货币等。但是智能金融带来的变化是远远不止上述环节的,它本质上对原有业务的重构,通过解构原有的业务流程,标准化和自动化其中的一些环节,从而创造出新的业务,甚至全新的商业模式。这个过程不仅仅是技术的革命,更是组织方式的变迁。

我们非常容易高估技术的短期价值,低估技术的长期价值,在人工智能方面就是特别明显的一件事情。

金融的声纳和摄像头在哪?

智能金融发展到今天,也是依托于金融业过去20多年在IT方面不懈的努力,分为四个阶段。

第三和第四阶段是智能金融包含的方式,自动化就是从繁琐到简单,智能化是画龙到点睛

举一个不是金融的例子,但有借鉴意义。上海市有一个禁鸣政策,这个政策一直没有被执行。大量的车辆,人工太难检测了。两年前上海市政府开始探索,最近上线了一种系统,就是声纳禁鸣的检测系统。

这个技术其实以前用在战场找狙击手的,但是现在可以用于民用,只要汽车按了喇叭,马上就可以找到。据称,是在上线三天之内通过罚款收回了巨额的投资。

我们想一想,金融市场是不是也可以布满“声纳”和“摄像头”呢?现在金融市场上的文档非常多,浩如烟海。2017年这一年就有这么多文档:

所有都用人工来读没有办法做到。

我们之前和一些监管机构进行了合作,监管机构能够处理这些文档的人,一般不到100个人。用不到100个人的人力处理几十万份的文档,这显然是做不到的事情。

这个局面跟上海市的禁鸣政策一样,浩如烟海的数据使得目前人工没有办法来解决了。怎么办呢?用机器处理。

用机器处理大量的数据并不是现在才发展的,在美国十几年前就有了。

先讲一个新闻,说的是对冲基金的基金经理,如果能做更多的功课,就能赚更多的钱。

这个新闻的来源是美国莱斯大学的一项研究。这个研究是有数据的,它是说,如果你这个基金,每个月至少在美国的证监会SEC下载一份报告,那你下一个月超过平均收益率的,超额的收益率,如果年化之后,有1.5个点。对一个很大的资金量来说,1.5个点是非常非常多的钱。

这个新闻实际是讲什么呢?无外乎就是财报和公告。其中一个比较有意思的统计数字是这样的,有很多家机构都在从SEC自动下载文档,每月下载的中位数是4份。但是平均值高达672份,这说明什么问题?说明可能有少数几家机构下载了大量的文档。文章也透露说,这部分机构是用机器自动爬取的。

补充一个小背景,像美国的证监会SEC,它上面挂出来这些文档,是用一种机器可读的格式,叫XBRL的格式来表示的,就是说它直接给了你字段,每个字段对应文本,你就可以直接提取你关心的信息。

当然了,这个新闻里面也提到了说,它们根据分析ID地址,查到了头部机构的信息,比如说有文艺复兴公司,还有一些其他的对冲基金。而文艺复兴的CEO Robert和现在的CEO Peter在业内他们还有其他的身份,他们都是NLP的老炮。

现在这个结论已经呼之欲出了,他们就是自动地从证监会的网站上下了一些重要的文档,然后用机器自动阅读文档。

并不是说我们能够获取公开市场的数据对它进行理解就可以赚很多钱,对冲基金以及各种金融机构都有一些自己内部的数据,但是内部的数据大部分也是以文档的形式存在的,这其中的关键在于效率。

所以以偏概全地说,这件事情很核心的一个步骤,就是自动文档的理解。

如何让机器读懂文档信息?

金融这件事情,在以前我们更多是用人的知识,用人的经验在进行投资,但是现在信息大量地聚集和生产,这种模式恐怕不能再继续下去,如何及时获取文档、提炼核心信息、分析思考判断,可能越来越会由机器来执行。

核心是如何让机器读懂相关信息。一个资深的分析师、咨询师读报告没有问题,问题是如何让优秀高中生做这个事情,甚至如何让机器来做这个事情,这是不容易的。

坦白来讲,虽然人工智能在媒体上炒得很火热,在应用中更多遇到“人工智障”,如何进行利用,有大量的工作要做,有非常多的算法来集成,这不是一个有灵丹妙药的事情,其中有大量的工程。

这里面的核心技术,就是如何来机器来读“懂”这样一种技术。核心就是两大块:一块是自然语言处理,二是知识图谱技术。

今天不是一个面向技术的论坛,所以在具体的算法上不再多说,简单从原理层面上概述一下。机器来读报告和人读报告非常不一样,比如机器看到一幅画的时候,它看到并不是这个画里面的内容,我们人看到有物体、海滩、大海、树,机器看到是一大堆像素。

看报告是一样,比如年报上看到一张PDF有一财报,是一张表格,实际上机器看到的PDF并不是报告本身,而是一大堆面向打印机的打印指令,那个打印指令几乎丢掉所有语义信息,我们怎么样把它还原过来呢?就需要非常多的技术,这里不细说了。

其实最难的是里面这些的具体实践,“踩坑”的过程。

比如各种关系的识别、公司上下游的识别、人物关系的识别、产业链的识别、亲属关系的识别等等,在每一个具体的领域会有具体的应用。比如说审计、监管领域都会有相应不同的问题要解决。

每一个问题的解决,都需要综合应用自然语言处理各种不同的方法。包括深度学习的方法,包括规则的方法,包括人机交互的方法,所以我们在实践当中应用大量的方法综合。

文因互联现在最主要的工作,围绕着如何把金融报告、读懂金融报告自动化和智能化。由此衍生出几个方向:

一个是监管自动化,二是审计自动化,三是资管自动化,四是服务自动化,五是投研智能化。

这里面有一个当前的瓶颈问题,之前很多人工智能的实践是用机器学习来做应用,比如风控、营销。我们面临一个问题,传统的机器学习算法是在机构化数据上来做的,所以必须要有数据库和图谱。问题在于这个数据库和图谱在哪里来的?这就是“米”的问题,先有米,再有饭。

先把数据库和图谱做出来,然后再有自动化和智能化。

金融领域自动化解决方案

总的来说我们做的是金融数字世界里的“摄像头”和“声纳”。

在不同的领域,比如在自动化监管里面,我们做了一些尝试,以前几十万份、上百万份的公告都人工来读,来做摘要,是否合规,是否披露,都是由人工来做。现在我们做的尝试就是用机器来读,通过两年的时间有了比较正面的结果。我们现在对信息披露里报表的机器提取,已经可以做到接近人工提取的正确率。

甚至以后像“开罚单”的动作,例如监管机构发出的问询函和反馈意见,底稿可能是机器来做。

同样工作可以放到审计上,中国现在有23万个审计从业人员,审计有大量的时间,大概有20%左右的时间花在非常初步的报表复核的工作,非常繁琐。现在我们在探索自动化,也有了很好的结果。

以前只需要做上市公司的审计,现在一下子有新三板的审计,还有《会计师准则》和中外会计师准则的综合……如果我们靠人力增长来做可能是来不及的,恐怕我们需要借助机器来加速这个过程

在资管领域也做了一些尝试。以前大量的工作都是人工来做,犯错误就是很可怕的事情,现在整个数据的录入、检查和规则的匹配、预警,都可以自动化或者半自动化,极大节省了人力。

我刚才提到了三个方面,还有很多领域,比如说银行、税务都可以用到类似的方法来进行自动化。

手工业思维 PK 大工业思维

回到我们刚才讲到的话题就是Fintech的下半场,在我看来主要是一个重构的过程。

这里讲一下重构到底是什么意思。按照我个人的理解,智能金融跟传统的互联网金融是非常不一样的,虽然从技术上讲都是一种新的技术,但是互联网金融是一种解决规模的问题,而这种智能金融更多的情况下是把很多东西拆了切碎了重新组合起来的事情。

传统的这种金融服务业,按我个人的理解,可以分为几大类,我把它们戏称为“农业”、“矿业”、“手工业”和“大工业”。

比如说传统投研,非常依赖个人的经验、个人的人脉,所以非常像一种手工业的行为,但是这件事情是不是永远像这样呢?中国现在不到5万个,券商里面不到1万个分析师,是不是扩展到10万人、20万个人,才能满足我们不断增长的业务需求呢?应该不是这样。

而大工业要做的,并不是说比手工业更好、更精致的产品。大工业很难做到这一点,大工业用可复制的技术建立一种协作,建立出有质量保证的产品出来,这就是所谓智能金融的在长期能带给我们的“重构”。

很多事情我们现在可能还无法完全预测到到底是什么,但是我们可以想象得到,当所有机构之间数据的交换,从企业、到中介机构、到监管机构、到投资者能够有非常快速的通道的时候,现在人工做的很多工作都可以自动化,监管自动化,审批和信贷等等都可以都可以自动化,这是非常有趣的事情。

当然这是非常长的工作,它很难通过一个复杂的系统一下做出来,可能有一个发展阶段,现在这个阶段还比较早期,现在整个市场的投入量和人才都非常少,整个人才市场大概不到几百人。现在比较成熟的应该是在零件和工具这个层面,完整的系统构造还没有完全做到,可能要多花几年时间。

要花一些时间把基础的标准件提出来,如何从复杂的文档当中把数据提取出来,如何进行数据的分析。比如说相信每个金融人士都有维护自己的Excel表格,以后能不能形成标准件呢?比如说财务标准,为什么要好多人来学呢,机器都可以做到。包括监管、审计很多领域都有这样,大工业核心其实就是标准件化。

文因互联致力于提供智能金融的标准件,部分展示如下:

文因互联
文因互联

当人工智能遇见金融

产业智能金融
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

本体工程技术

本体工程,又称为本体论工程、本体论设计或本体设计,是计算机科学与信息科学当中的一个新兴领域,旨在研究用于构建本体的方法和方法学。本体工程乃是一个新兴的研究和应用领域,关注的是本体开发过程、本体生命周期、用于构建本体的方法和方法学以及那些用于支持这些方面的工具套装和语言。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
暂无评论
暂无评论~