鲍捷作者

从 Kensho 看大工业金融的发展路径(下)

在下半部分的文章中,鲍捷博士将细致阐述一种反常识的新思路——智能金融的切入点,一定不是股票交易,离交易越远越能落地。

他认为,Kensho 不会取代任何交易员、投资人或分析师,想坐在Kensho这类智能系统上躺着赚钱是不切实际的。

智能金融系统目前真正的价值,不是直接帮投资人挣更多钱,也不是省钱,而是通过人工智能建立起金融机构的大规模自动化系统,让监管、银行、投资机构等决策行为减少对个人经验的依赖,从而减少人员流动对机构的冲击,建立新型的协作系统。

智能金融当下在中国真正的合理路径是:由零件的标准化导向“大工业金融”,本质是金融信息处理过程的(部分)标准件化。把金融信息和数据资产化,才是智能金融系统最大的价值所在。

作者介绍

鲍捷博士,文因互联 CEO。拥有20年学术界和工业界的相关经验。美国Iowa State University人工智能博士,RPI博士后,MIT访问研究员,W3C OWL(Web本体语言)工作组成员,前三星美国研发中心研究员,三星问答系统SVoice第二代系统核心设计师。主要研究领域涵盖人工智能的诸多分支,包括机器学习神经网络数据挖掘自然语言处理、形式推理、语义网本体工程等,发表了70多篇领域内相关论文。是中文信息学会语言与知识计算专委会委员,中国计算机协会会刊编委,W3C顾问会员会代表。2010年以来关注金融智能化的研究和应用,成果有XBRL语义模型,基于知识图谱的基本面分析、金融问答引擎、财务报告自动化提取、自动化监管等。

智能金融的路径:由零件的标准化导向大工业金融

标准化会带来意想不到的新应用

智能金融的新路径,我认为应该是通过零件的打造,逐步走向所谓大工业的金融。

就目前这几年时间,比较合理的目标和路径,是把信息处理过程中一部分的过程标准件化。自动化、标准化、工业化,这三块是相互影响的。

我们把工业化话题展开一点说,因为信息工业影响金融工业,不是今天才发生的,在很早很早就发生了。我前两天在读《美国金融业史》,里面讲了一个电报的案子。美国在早年的时候,有很多交易所,这些交易所的那些交易的规则全是不一样的,后来电报发生之后,改变了这一切。所有的交易所都死了,只留下了一个,纽约的交易所。因为信息的传播速度的上升,就使得各种信息披露也好、交易规则也好,都标准化了,把这种分裂的市场变成一个统一的市场,所以其他的市场都没有了。

往后看,比如说电话、互联网,它们每一次都带来了类似的变化。比如说个人消费信贷,在没有电话之前是一个情况,到二战之后,人们通过电话,改造电话线,有了信用卡网络,完全激活了一个新的市场。所以目前状况也是类似的,如果狭义地看标准化本身,第一个阶段可以看到的,可能就是我们做某件事情的效率提升了。

当电话进入金融机构的时候,大家可能想到的是,电话帮我跟其他人发生了实时的双向语音通话。这个是改进了一点效率,但并不一定能激动。但是当大家发现电话上面加那么一点东西,突然可以催生出个人信贷新形式的时候,这就有意思了。所以很多底层平台的标准化会带来让人完全意想不到的新应用。大部分情况下,人们没有办法预言这是什么。但首先我们要提供这种标准化,提供这种通用工具。

从金融数据农业到金融数据工业

我把现在的金融信息服务业分成四大类:农业、矿业、手工业、大工业。我们要努力去创造的新生事物——大工业。

信息农业是什么?就是从金融的“自然资源”里面刨数据。这种情况在最早的时候,大家都是用人工来做的。我以前跟华泰联合的一位前辈聊的时候,他说在十几年前,他们开始做这件事情的时候,是每天看中国证券报的。从纸质报纸中,把数据扒出来,然后看并购标的的情况。后来进步了,有了各种各样金融终端。但这些事情,依然还没有改变这件事情的农业本质。基本上模式都是一样的,就是在人力成本比较低的地方,找一帮小弟小妹们,通常大概是几百个人,人肉地把这个数字给摘出来。我把这个称为农业。

农业其实是一个很好的产业,如果农业能够经营得体,利润率50%是没有问题的。但是农业面临的最主要的困难,就是它很难去大规模地扩大。比如说很多信息农业,他们在主板时代是做得很好的,但是他们在新三板时代,他们的扩大就很成为问题。因为目前主体,已经不是1000家、2000家公司了,而是1.5万家公司了。我们原来做产业链研究,招几十个人就可以做,但现在要招几百个人来做,组织一个几百人的人员团队,是一个非常有挑战性的事情。而要手工处理所有1.5万家的全部财报或公告的话,那需要几千几万人。所以很难去规模化地扩大,很难去扩大生产,很难去延长产业链。这是信息农业最大的问题。

信息矿业,就是指在已经有了结构化数据的前提下,比如说,最典型的工商数据,从结构化和半结构化数据中去改进数据的可用性。这也是一种很好的模式。但如果没有深度的加工能力,壁垒不会高。

第三种就是信息手工业。传统的金融的决策过程,大部分是手工业的过程。我自己去进行大量的阅读,大量的学习,从而建立起对世界的认知,然后我把这个对世界的认知进行变现。这就是一个手工业的过程。这里面涉及到个人的经验,也涉及到人脉。很多消息,你能得到,别人却得不到,为什么?就因为我认识谁谁谁。最早的时候,我们去采访一些金融界的年轻人,有一位跟我说,“我感觉好像我的能力什么的,跟我的老板也没啥区别,但就是因为他认识一些人,所以他在那个位置上,我在这个位置上”,他愤愤不平。如果一件事情本身就是依赖于个人的经验,那的确会这样。在此也可以看到,基于这样的手工业,同样会导致VC或是券商的某些部门,在它大到一定程度后,里面的人成熟以后,有人就会愤愤不平,他一定会走,带着他的经验和人脉,因为这是一个个人不可复制的资产。

最后一种是叫大工业。大工业的特点,不是依赖于个人的经验和人脉的,也不是依赖于一些现有的自然资源的。它是基于一种可复制的技术和系统,建立起一种协作的关系,从而制造出千千万万种有质量保证的产品。在矿业中,那就是开采石油;在工业中,那就是制造塑料。从这儿可以看到,例如中东那些产油国,虽然他们能够生产很多石油,但是他们可能连生产一支笔的塑料都造不出来,因为他们不具备这种工业能力。

我认为未来的金融服务业,在美国那边是260亿美元的生意,但在中国还是规模非常小的。中国金融的信息服务业是不到100亿人民币的生意。是不是有一天,中国也达到260亿美元,或者说2000亿人民币呢?是不是会有一天甚至比美国更大呢?也是完全有可能的。但如果走到这一天,一定不是靠农业这种办法,也不是靠有更多的农民来“种地”的办法,而一定是通过技术建立起金融数据大工业,从而连带着整个金融产业发生一些比较大的变化。而且这些变化并不是像 Kensho 这种,我有了一个变魔术的机器,便能够使我比市场赢得更多回报率的东西。

如果再往前发展的话,我认为中国金融在今后十年之内,会发生一个很大的变化。它会超越现在的手工业的金融,它能够有更大的标准化的生产。比如说我相信大家每一个人都有自己的EXCEL表格,每个人都有自己的分析模型,每个人都有自己积累的一些小技巧。其实在早期的手工业里面,这很容易看到,诸如造个轮子,造个碗,每一家都会有这样的小技巧,每一家都把自己的小技巧藏着掖着。所有这些手工业者都担心其他的手工业者抢走他们的饭碗。所以,手工业者会传儿不传女,把很多技巧给藏着。但我们知道,最后这些手工业者都还是被大工业给干掉了。这样的事情会不会也在金融界发生?我相信会的。

所以,最关键的事情,不是在现在这个阶段,大家都去追求超出市场收益率的投资决策。如果我们大家想用 Kensho以实现坐着数钱,这件事情是永远都不会发生的。现在不会发生,再过10年不会发生,再过100年也不会发生

新协作、新体系

能够真正建立起来的合理的追求目标,是建立起一个金融信息处理的协作系统。或者更现实一点儿讲,我们并不是非得跑得比整个市场快,有时候只需要比旁边的人快就行了。

其实在不同的部门里面会有不同的落地形式。前两天我也跟一个机构的IT部门负责人聊过。他提到一件事,他说以前他们在上投研工具的时候,领导是没太大动力的。因为从领导来看,无非是他省了点钱。而在整个公司的三张表里头,这笔钱是放在费用里面的,不是放在收入那边的。这事对领导不见得有什么动力。首先便已经证明了,从长期来看,通过这种工具来提高收益回报率的目标不切实际。第二,如果仅仅是省钱,这个目标不够性感。他想让事情这样发展:在这个基金中,研究员会不停流动。在他看来比较有意义的目标,是整个投研不再依赖个人。但其实金融是什么?金融就是信息和数据。把这些信息和数据资产化,这才是我上这个系统最大的价值所在。

我觉得这就是一种非常正面的思路,而不再是传统的、狭隘的,一个个人提高投资回报率的过程。这更多是从系统角度讲,如何去建立一个协作系统,在这个协作系统中提高了整个组织的资产(assets)

在投行、银行这些行业也都有类似案例,我们也都聊过。

我这边再着重讲一下监管。自去年十九大以来,整个监管对科技,特别是对人工智能的热度和关注度好像一下升上来了。包括几个大的部门,股票、基金、债券;也包括新三板这边,合规性检查;还有下面的评估、评级,以及整个宏观风险的监控。目前国家的投入量是非常大的。

在我看来,这也是一个大家特别需要关注的宏观方向。它的压力会一层一层的传导下来。前天我也看到有一个从事券商的高管在朋友圈里抱怨,说以后没有办法再做了,一罚罚50个亿。其实这也可能代表,咱们关注投资的时候,不能仅仅只看收益或者是金融创新,在目前阶段,更重要的是如何去规范这件事情。中国新金融往前的传导会有一个传导周期。可能最早的、最先把最核心的技术给应用起来的,是国家机构。它是在整个产业最上游,把这些新技术应用起来的。它会有一个传导过程,然后一步一步地传导到,比如说券商,再往下传导到上市公司,上市公司的子公司、连带的公司,如此一级一级传导下去。这个传导周期,可能会要花几年时间。但是我相信,大家或多或少都会在未来感受到。

我们不应该去追求替代交易员,或者是投资经理。这是做不到的。我们也不应该去追求跑赢市场,因为市场本身不能打败市场。当所有人都去追求跑赢市场的时候,没有任何人能够跑赢市场。从人工智能角度来说,人们不应该去追求通过图灵测试。实际上在很长一段时间内,大家对于类似Kensho的金融问答系统,是希望它达到人的水平的。而那也就是图灵测试,是做不到的。

投资、投顾、投研:不能直奔平台而去

另外一点,对于这样一个复杂的系统,我刚才也分析了,做好 Kensho 有很多的拦路虎。如果我们想做好,不应该一下子就去追求做这样的系统,不管是智能投研系统、智能投顾系统,或者是智能投资、智能投机系统。可能在短期内都是做不到的。

就针对这两个多说几句。其实这个事情反常识,它不仅仅是在金融这一个领域,应该是在所有的人工智能领域里面的,是一个普遍的反常识。建设一个人工智能的系统平台,不能直奔平台而去,因为通常人工智能系统都是一个非常复杂的系统,都是要几百个人年才能做得到的。

一开始,不管你是做语音也好,做图像也好、文本也好,如果你一开始就搞一个很大的平台,比如说我钱多,一下子砸10个亿、砸100个亿,基本上注定这个项目一定会失败。最典型的就是日本的五代机。日本在80年代的时候,想做出第五代计算机来,冠名人工智能计算机。那是举国之力,用整个日本国家的力量来做这样一件事情,但没有做成。目标太大了。

这可能是大型系统普遍的规律,它不是设计出来的,它是生长出来的,它是一点一点地通过一些很小很小的组件,一点一点地逐渐地去碰撞、去组合,慢慢地生成的。这件事情很难通过一下子砸100个亿,就能够达成的,没有这样的事情。直奔这个平台而去,基本上可以收获100%的失败。

第二个,如果我们要做金融领域的人工智能,就不能直奔着摇钱树而去。最早的时候,也有人给我提过这个建议。他说,你跟客户谈钱就好了,就说“我能帮你挣更多的钱”。你给他种个摇钱树,给他更好的投资回报。但这其实是做不到的。如果奔着摇钱树而去,最终是真长不出来树的,也长不出果子。这都是反常识。可能一开始刚刚进入这个行业的时候,很多人直接就这样,“我要造一个系统,能够持续帮我挣钱,躺着都能挣钱,睡觉都能挣钱!”。但是做不到。

具体分三个领域来讲:投资、投顾、投研,每一块展开都能说两个小时,今天只能提纲挈领地来讲了。

比如说智能投资这边,打败市场是困难的,最重要的是打败自己。每个人都是非理性的,所以我们仅仅只通过数据是不可能形成正确的决策的。在前几年的时候,曾经有一个很火爆的东西,叫大数据指数基金。最早应该是在2010年的时候,印地安纳大学的一个教授曾提出过这个理论。他还写了一篇文章,说自己开过一个公司,就实践他这个理论,可两年后公司破产了。我们也看到,过去这几年,所谓的大数据指数基金基本上回报率都是很低的。在此基础上,我们也看到了一些和它类似的东西,比如说,智能投顾,它的整个回报率应该也是低于市场回报率的。

另外一点就是规模。我们也经常遇到这些情况。有人说量化有用,人工智能有用,但是你可能要问他一个问题,你是在多大钱的规模上?
如果是在几十万上面,那是一个事情。几百万上,是另一个事情。几千万上,更是另一个事情。如果在一个亿以上的事情,那还能做得到,那真是非常非常的牛逼。但是在座的很多人身家应该都超过1个亿,或者是管理规模超过1个亿。在这个基础上,每个策略能够做什么事情,它对市场产生的影响是什么。是不是一旦有效就变得无效?我相信很多人应该是有这方面的体会的。那么对于10亿以上的投资,你想通过人工智能做一个策略,甚至是几十个策略进行对冲,或者几百个策略进行进化,都是非常非常困难的事情。当我们在谈一个东西有效的时候,前提就是规模是多少。后面几个细点就不提了,如果感兴趣,我们可以回头再研究。

投顾也是一样的。投顾技术分成几大块,一块就是底层的资产配置。这一块是没有多少人工智能在里面的。再一块是用户画像,这里面现在有很多用到的机器学习。从去年年中开始,越来越多的人开始关注智能投顾后的其他事情了,不仅仅是投前,也不仅仅是资产配置,投后的服务。因为最早的时候,智能投顾之所以能够吸引到这么多钱,可能是因为两个原因:第一个原因,大家对人工智能有一种期待,就是说我能够打败市场,我能够去获得更好的回报率。但是就目前市场的表现,实践证明这一点很难做到。第二个原因,基于客户本身,他们对人工智能会有一种期待。你只要说我的基金用人工智能了,我是智能投顾了,就会有很多人来买。而一买就买上百亿,以此收益率来获客。资产新规出来之后,这条路也被关上了。所以智能投顾往后走得开发新的东西,而不是原来这些东西。特别是投后的很多的事情,在智能陪伴这一点上,也是人工智能可以帮助大家的地方。

第三点,智能投研。在投顾或者投资,或者投机里头也是需要投研的。我就不展开多说了,因为在市场上也看到很多类似投研的产品,包括怎么帮助你更好地看公告,更好地看研报,更好地看数据。那是不是在传统的场景里,我们需要优先把这个东西用上?早些时候,我们曾经有过讨论。我们在想,传统的投研场景是什么样的?如果是对于纽约那边的分析师来说,6个显示器,那是投研的场景。可这种桌面的投研场景,是不是我们要去追求的?可能还有新兴的场景,新兴的应用,或者新兴的机构。这些地方也许是投研更能够去发挥的地方,或者,更多的是以前根本没有想到可以用投研的地方。如果在中国,我们看传统投研的话,券商那边几千人,买方分析师、投资经理几万人,加在一起可能不到5万人。但如果我们把投研只用来服务这5万人,就严重低估了这个技术。也许是5000万人需要这个技术。

其实以上几点一直都在讨论,我们构造智能金融系统,不必把我们的思想局限在做交易这一件事情上面,很多点上面都是可以用它的,而且我们不一定要从一个所谓的大的系统开始做这个事情。

用零件的标准化触发系统性变革

用历史眼光来看,整个金融IT建设的历史,可以分为四个阶段:信息化、大数据化、自动化、智能化。

第一个阶段就是信息化,或者说是电子化,上各种信息化系统。大概从十年前开始,我们就进行了大数据化,比如说银行有各种云,还有把分散的各个部门的数据汇总在一起的资料。这两年开始便有了自动化,包括自动化报表,自动化服务。从去年开始有智能化的需求。每一步都是依赖于前面那一步的。

在我看来,现阶段,最重要的是自动化,我们把前面那一步已经做得挺好的了。经过以往7、8年到10年的实践,大数据化,包括银行、券商都做得相当不错了。银监会刚发了一个文,要求各个银行加强内部数据治理,以后要有数据治理的标准。我们昨天刚聊了一个银行,他们从一开始做了内部数据治理,便有了比较好的机构化数据;而有了那一块之后,新的东西立刻随之出现,例如各种自动化的需求,自动化的匹配、自动化的报表、自动化的研究。又比如说我认识一个券商的资管部门的研究人员,他们现在用各种EXCEL表格来做资产的配置,而这事以后肯定会自动化的,不需要再用EXCEL表格来做了。

所以核心就是自动化,怎么做到自动化?怎么做到人工智能化?要把底层数据结构化。底层的这些东西,就是要一层一层的逐渐从零件开始。我们从投研的各个不同的环节开始做零件、做工具的打造,做解决方案,到系统。

我这里再讲一个小故事,跟金融没有关系,但是挺有启发的。瓦特作为蒸汽机的发明者,其实是改良者,他到底做了什么?他发明了热力学某某定律吗?肯定没有。他发明了一种新的热机循环的方法吗?也没有。其实瓦特真正的改造,他之所以能够让蒸汽机的效率提升如此之大,都是在零件层面上做文章。比如说在如何传动的问题上,他发明、改进了分离式冷凝器、行星式齿轮、平行运动连杆机构。而就是有了十几个这样的改进和各种零件层面上的改动,才促使了之后系统的变化。

再举个例子,福特的汽车案例。他生产出了流水线,可他是如何把整个生产成本降到这么低的?在很长一段时间,法国的汽车是比美国的汽车造得好,产量高的。但在福特发明了流水线之后,这一切全变了。一直到第一次世界大战之前,法国一年只能造4万辆汽车,因为需要手工打造每一辆汽车。而流水线的标准化改变了这一切。这便是零件的标准化所能带来的价值。

而对于打造一个智能金融的系统,我们目前可以制造其中大概一百多种零件。我们能做的零件肯定不止这些。我相信未来的金融大工业会需要比这多得多的各种零件。但我们目前可以从这些零件开始,来做一些现在、立即、马上,就能够做的事情。我们在着手去构造一个智能金融系统时,一开始可能想的是用1000万、2000万来做这个事情。但是如果我们从现在就能够做的小事开始的话,可能就不需要这么多。也许20万就能启动一件事情。很多事情可能没有想象的这么难。

如果我们把我们的目标定在理性的目标上,要想做到这一点,我们就要打造新金融,用人工智能打造新金融。新金融是需要新金融人的,我们可能要清掉我们脑里原有的很多想法。这些业务中很多未必是通过原有的做法去向外推的。我们还可能需要一种新的方法去适应大工业时代的协作。至少,我们要更加地开放、更加地协作。

结论

说了这么多,我相信大家今天回家以后,大部分内容可能都不记得了。但我就希望大家记得这一句话,Take-home message:智能金融的路径是由零件的标准化导向大工业金融的。就是标准化和大工业这两件事情。如果说我们要想建立起未来的 Kensho,我们应该是要通过这样的路径。

文因互联
文因互联

当人工智能遇见金融

产业智能金融Kensho
2
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

本体工程技术

本体工程,又称为本体论工程、本体论设计或本体设计,是计算机科学与信息科学当中的一个新兴领域,旨在研究用于构建本体的方法和方法学。本体工程乃是一个新兴的研究和应用领域,关注的是本体开发过程、本体生命周期、用于构建本体的方法和方法学以及那些用于支持这些方面的工具套装和语言。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
暂无评论
暂无评论~