Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

鲍捷作者

从 Kensho 看大工业金融的发展路径(上)

2018年3月7日,美国智能投研公司Kensho被标普全球以5.5亿美元收购,这是迄今为止,华尔街最大规模的人工智能公司并购案。

5.5亿美元贵不贵?Kensho究竟能做到什么?它的模式将给国内智能金融行业带来怎样的启示?为什么智能金融领域没能出现第二个 Kensho?为什么智能金融不必复制 Kensho?

在上半部分的文章中,文因互联 CEO 鲍捷博士结合两年多的实践探索经验,为大家一一解答。

作者介绍

鲍捷博士,文因互联 CEO。拥有20年学术界和工业界的相关经验。美国Iowa State University人工智能博士,RPI博士后,MIT访问研究员,W3C OWL(Web本体语言)工作组成员,前三星美国研发中心研究员,三星问答系统SVoice第二代系统核心设计师。主要研究领域涵盖人工智能的诸多分支,包括机器学习神经网络数据挖掘自然语言处理、形式推理、语义网本体工程等,发表了70多篇领域内相关论文。是中文信息学会语言与知识计算专委会委员,中国计算机协会会刊编委,W3C顾问会员会代表。2010年以来关注金融智能化的研究和应用,成果有XBRL语义模型,基于知识图谱的基本面分析、金融问答引擎、财务报告自动化提取、自动化监管等。

Kensho公司简介

2013年,Daniel Nadler创立了Kensho;2014年Kensho与高盛合作,并获得高盛的1500万美元投资;2017年,获标普国际领投的B轮5000万美元融资,估值达5亿美元;其核心产品是金融决策引擎“Warren”,曾成功预言英国脱欧后的英镑走势,及2017年美国科技股的强势上涨。

以下为演讲原文:

Kensho 以5.5 亿美元被收购,这个消息到底是一个利空?还是一个利好?

我今天想要和大家探讨:

  • 第一,Kensho是什么;

  • 第二,怎么做出 Kensho;

  • 第三,我们能不能做到;

  • 第四,是否应该那样去做。

接下来要讲的,有的是事实,有的是观点,有的是信仰。

事实是大家都已经看到的东西;

观点我相信而且有一定的证据能够证明的东西;

信仰是在遥远的未来才能够证明的东西。

AI的循环:人神共愤 or 骗子

先做一个简单的自我介绍,我从1998年开始做人工智能的研究,人工智能有几个大的学派,神经网络机器学习,还有逻辑学派,或者说理性主义学派,这几个学派,我或多或少都有一些涉猎。

我在2001年去的美国,在衣阿华州立大学拿到博士学位,博士期间主要做语义网的研究,这个领域现在改名字叫知识图谱了。2007年博士毕业以后,去了伦斯勒理工学院(RPI),2010年的时候去了MIT,在 图灵奖得主Tim Berners-Lee 的实验室。2011年去了三星美国研究院,在那里做自然语言处理的研究,研究问答系统。2013年以后,开始自己在硅谷创业。2015年的时候,把团队带回中国来,专注在智能金融领域。我们的公司叫文因互联。

自己跟金融有关的经历,是2010年还在MIT的时候,跟MIT管理学院,还有Fidelity的工程师一起做了一个 XBRL 的语义建模。XBRL 是金融报表语言的一个国际标准,但是只是一个 XML 的标准,它并没有语义,不能做推理。

比如说财务自动校验,是它本身没有的能力,我们给它定义了一个语义模型以方便后续的自动化工作。后来基于这个工作,我们在2011年做了一个基于语义和社交数据的基本面分析的论文,后来这篇论文拿了 IEEE金融工程和计算智能会议最佳论文。

2015年以后,我们就把其他的业务都砍掉了,专门做金融这方面,前前后后实验了很多产品。一开始做新三板的数据库,然后做金融搜索引擎、自动化报告、公告、研报的摘要,机器人等等。我们主要用知识图谱技术帮助金融机构做业务的自动化,如自动化读公告、自动化监管、自动化审计、流程自动化、问答自动化等。

人工智能到现在也有60年的发展历史了。自从我入行以来,我也经历了两个小的低谷,总的来说,人工智能的发展基本上都是下图这样的:

一会儿说人类要毁灭了,一会儿又说人工智能是骗子。尤其是去年,“人类要毁灭”了的新闻到处都是,但从今年以来,各种反思乃至否定的文章也开始出现。

以下是几个神化人工智能的例子:一个是说高盛的交易员要被人工智能取代了。

另一个是说35岁以前,如果还一事无成,你还能去哪?

最后一个新闻最令人恐慌,用了一个非常夸张的词,“人神共愤”。

这到底还是不是人工智能?

要判断是否具有AI属性,不考虑科学论证的严谨性,一个直观的判断标准,看里面是否有机器学习知识图谱自然语言处理等成分,如果没有,其实它更多的是传统的自动化。

回过头看这三个新闻。

比如说第一个新闻,高盛的交易员只剩两人,是人工智能导致的吗?并不是。因为这里面并没有什么人工智能的技术。交易本身是一个执行,并不涉及策略的形成。交易本身分很多级,从低级到高级。现在真正被替代的应该就是一些机械的,既定的策略,去执行一下就好。与其说是人工智能替代了这些人,不如说是数据库和网络替代了这些人。

第二个技术,其实是在讲会计。现在我们看到德勤等很多会计公司都推出了过程的自动化、财会的自动化,这些技术是不是人工智能?很难说是不是人工智能。

最后一条关于Kensho,Kensho的的确确是人工智能。从数据层到表现层,最后到策略层,是人工智能的一个综合应用,Kensho有一个很大的知识图谱部门。

大约从2013年、2014年开始,新一代真正的人工智能系统开始应用在金融领域,所以人工智能确实是在改变这个世界,改变这个行业。

但到底是不是真的会做到人神共愤的层面,我们再往下看故事。

Kensho 能做到什么?

Kensho 这个词是什么意思?Kensho 是一个日语词,它是日语的“见性”,明心见性是个佛教用语,代表的是说大彻大悟,醍醐灌顶的意思。

说起来很神,本质就是三个字——“相关性”

大数据领域兴起后,其核心想法是,与其去发现因果性,不如把数据积累起来,寻找事件和资产之间的相关性,以及事件对价格、特别是价格长期趋势的影响,这就是 Kensho 提供的主要服务。

因为我不是 Kensho 公司的,我所知道的消息都是从公开渠道收集来的,或者打电话从老同学、老同事那里收集来的,未必完全准确。但我们理解 Kensho 并不需要真正的去深入它的系统本身的那些细节上去,我们从它的逻辑和它的基本服务,大体上可以推断出来它要干什么,建立这样的系统需要什么样的东西。

我们看几个例子,Kensho 推出的最主要的应用,就是 Warren 搜索引擎,或者说决策引擎。它能在一分钟内,完成过去分析师要做几个小时甚至几天的工作。

首先, Kensho 的底层是一个很大的数据库。两年前,它是9万个数据集的数据库,在此基础上有各种事件、价格、基本面。

这个图是某一个ETF(Exchange Traded Funds 指数基金)的基本面研究,下面有哪些资产在ETF下面,它们最近的趋势是什么,比例是什么,可以往前的推断指标是什么。这是 Kensho 基本的数据,像这样的数据有成千上万个。

在此之上,刚才提到了,它要做一个趋势性研究,核心就是说如果有一些事情发生了,它跟资产价格之间,在长期来看是什么样相关的趋势。图上这个例子在讲,欧洲的整个资产相对于英国的贸易,它们之间的相关性是什么,这其实是一个很长很长的图,我只截取了前面一段,就是在讲相关性的各种指标是什么。

第二个例子是原油(见下图),在某一种价格变动后,WTI原油的表现一周内会发生什么变化?这也是各种指标和指标之间的相关性。所以Kensho里不仅有股票,也有各种大宗资产、期货。

第三个例子是事件影响分析,下图描述了2000年以来,春节对资产的影响,由此可以决定我们的策略。“事件影响分析”也是 Kensho 在新闻里最常见的一个卖点。

第四个例子是长期趋势分析,2010年以来,应该是从美股恢复以来,每年9月份,三大指数,它们的表现是什么样。所以它有非常多数据切片的分析。我记得2016年美国大选结束的时候, Kensho第二天就推出一个图,分析如果是共和党的总统上台,对于资产长期来看,会有什么样的影响。各种相关性的比较,可以想象出来无穷种的组合。

第五个例子是一个策略:如果原油价格超过了50美元一桶之后,我买入,5天之后就卖出,这样的一种事件,从历史预期来看,我能得到什么样的回报率。像这样简单的策略,也是有无穷多种的组合的。

对一个初级分析师来说,要做以上这些事,他要去收集数据、整合数据、自己做相关性分析,还要画图。Kensho 则可以一分钟内完成这些以前要几小时,甚至几天才能做完的事。从这点来讲,华尔街有些人会“人神共愤”,是可以理解的。

我们也注意到,刚才有几段截图是从电视上来的,这是CNBC。在 Kensho 的早期,它的几个商业模式之一就是跟媒体合作,帮助媒体分析。另外一个就是像高盛这样的获客、留客、分仓的商业模式。

在电视访谈里面,也有人问过 Kensho 的创始人,问你们自己去炒吗?他很坚定地说,我们自己不去做交易,我们要做成千上万家金融机构决策的提供商,但我们自己不下水做交易。有一段时间Kensho被高盛买了以后,其他人就很难用到了,只有高盛的客户才能用。我又问了我在高盛的同学,他们自己也不太能够用到这个东西,所以外边也很难用得到。不知道在座的,有没有用过kensho的?(参会者回复)没有。

5.5亿美元贵不贵?

不久以前,Kensho 以5.5亿美元被标准普尔收购,贵不贵?

大家一开始对 Kensho 的预期远远高于5.5亿美元。公认 Kensho 有非常巨大的市场。因为整个金融的数据市场,大概是260亿美元。

大约在三年前,有一个新闻说,说如果广泛加以应用,那么 Warren,即Kensho 的搜索系统,可能会撼动长期以来,被彭博社、汤森路透所垄断的260亿美元的金融数据市场。如果它真正能够撼动市场,它将来的价格不会是5.5亿美元。

下面的几句话都是正方观点,在两年前或三年前的时候,大家看到 Kensho 的时候,其实预期是比现在更高的。其中一个说,如果Kensho 的产品最后能够研发成功,金融机构的分析师和研究人员将面临灾难,面对更快、更好的机器人分析师,他们毫无胜算。

最后一句话,也是Kensho 创始人自己在一次访谈里说的,他说他推出了 Kensho 这个系统以后,有人给他打电话说:“你这个叛徒!如果你发现了这种关系,你就用这种关系来交易,但你不要公开它,你公开它,就导致大家都没法交易了。”

事实是,5.5亿美元的价格,从某种程度上说明,上述预期并没有达到。

我也找到了一些针对 Kensho 的反方观点,这些观点不一定正确,但是非常值得思考。

第一个说法是,彭博可以很容易地复制 Kensho ,而且可以做得好100倍。我在咨询彭博的同学后,感受是,彭博在短期内,还做不出Kensho。自从我回国以来,我听到了至少不下10个团队,试图去复制 Kensho,也有一些非常大的国家级机构,也想去做这种东西,到目前为止,还没有一个能做成的。

第二个观点来自高盛的朋友。他说这些年来,并没有看到 Kensho 做出什么牛逼的东西,也没见高盛内部人用过 Kensho ,更多是高盛的客户在用。

第三个,有人质疑,说 Kensho 提供了相关性,统计过去的事件对股票的影响,针对未来的操作会有指导意义吗?胜算有多高呢?我们也知道,其实我们在买基金的时候,都会有这么一条说明,过去的业绩不等于未来的预测。过去的相关性是不是对未来有指导意义?可能不同的学派对这些有不同的想法。

最后一点,我想应该是被证实了的。普通人想一夜就能成为坐着数钱的交易员的话,还是洗洗睡吧。Kensho 这样的大杀器,到底能不能让人挣钱,这是第一个问题。它能不能让普通人挣钱,这是第二个问题。我想这两个问题,在目前还没有明确的答案,至少现在没有肯定的答案

我们回过头来看,为什么 Kensho 能值5.5亿美元?

5.5亿美元,在某些情况下,我们看是个小数字,但已经是近年来最大的一笔人工智能公司的并购了

在人工智能领域里,一般来说,常见的并购额度是1亿到2亿美元。我们知道,Siri 当初的收购价格是2亿美元。微软在几年前收购 Powerset 的时候,也就是它的智能搜索引擎,2亿美元。最便宜的是亚马逊的智能音箱背后的搜索引擎True Knowledge,2600万美元。

所以说相比之下,Kensho卖了5.5亿美元,可以说是给人工智能公司打了一针兴奋剂,对于某些投资机构,也是一个利好的消息。

我们从kensho底层来看,想复制它的的确确是一件不容易的事情,不管是在中国,还是在美国。

基于这样的技术复杂度,5.5亿美元是一个非常合理的价格

构造 Kensho 的技术关键

为什么过去4年没有一家团队能够成功复制 Kensho?

Kensho包含三个难度比较高的组成部分,这三个组成部分在中国的基础目前都还不到位。它们分别是:底层的结构化数据库中间层的金融领域知识库前端的问答技术

第一个部分是结构化数据库。如果我们简化一下 Kensho,可以不精确地认为 Kensho 是给高盛的结构化数据库做了一个自然语言的前端。如果让 Kensho 从头把所有的结构化数据库做出来,那一两年绝对不够,十年也不一定行。高盛在过去20年多少万人的积累,才创造出来这样一个底层数据库,比如SecDB,现在应该远远不止9万个数据集了,在此基础上才可能有 Kensho。有了上述的基础设施以后,在上面做自然语言的前端,才能水到渠成。

Kensho 的产生也依赖于过去十年美国整个数据生态系统的发展。2009年奥巴马上台时,曾发布过一个总统令,要求美国所有政府部门都开放数据,其中也包含了大量金融部门,包括 SEC。美国所有基础证券的信息,各个细分领域的国民经济政府数据都是开放的,所有人不需要任何申请就能拿到。到目前为止,美国政府已开放了上百万个这样的数据集。

而在中国,这样开放的数据基础近乎于零。现在连基础证券的数据,包括新三板或者主板的 XBRL 数据,还不能让所有人免费、公开地访问。这个数据生态的差距是以光年来计算的。

第二个是金融领域的知识库,在做金融统计时,会有各种关联分析、回归分析和细分子领域的分析,比如产业链、财务模型、行业模型,宏观模型、投资模型等等。

以财务模型为例,美国有 GAAP 模型,中国有 CAS 模型,这都是成千上万条不同的会计准则,有了这些准则后,我们才能做财务的一致性校验。

在产业链领域,国内也有一些公司在做。美国的Capital IQ公司,很早以前就把产业对标做得很透了。而国内,还远远没有做好给公司打标签,或对标研究这件事。行业模型、宏观模型、各种投资模型,现在也都是方兴未艾。我们如果想做好上面提到的 Kensho的几个案例,逃不掉这些模型。而要做这些模型,需要协调各领域、各分支的专家,整合各种各样的专家知识。目前在中文领域,这一块还比较缺失。

第三块,从技术上来说是更有挑战的东西,就是前端问答技术。前几天,我在知乎上回答了一个帖子,有人问:Kensho 能不能复制?复制的核心技术要点是什么?我回答,前端问答是其中的一个大挑战。一位读者留言说:问答技术没什么了不起,现在搜索引擎公司早就解决这个问题了。

这是一个误区,像小冰这样的问答机器人,大家看起来已经很智能了,但这种技术很难用在 Kensho上,因为这是两种完全不同的技术路线。

小冰本质上是一种基于检索的技术。它是从一大堆文本里头,找到过去存在的相似问答,再做答案和问题间的匹配。用术语来说,是用端到端的深度学习的模型来做训练。但这样的模型,有两个问题:第一,它无法精确地理解这个问题是什么,就是说它无法进行语义解析;第二,它的答案很难被构造出来。比如,像上述Kensho 例子中一些各种不同切面的切分,各种不同指标的组合,我们可以设想出无穷多种的组合,但用深度学习技术,却无法生成无穷多种答案。

如果想做到这一点,我们必须要做语义解析也就是真的理解用户说的话,理解他说的词是什么意思,词和词之间是什么关系,这可能是这个问题最难的一点。到目前为止,这还不是一个完全被解决的问题。具体要做语义解析,又要涉及大概十几种非常专业的技术。小冰的技术是没有办法用到 Kensho 这样的强知识性问答中的。

回顾了这三个关键点后,我们可以说,想建立Kensho 这样的系统,要依赖于很多先决条件,包括数据基础、领域知识库基础和前端问答基础,这三块都很有挑战。对专业人士而言,这不是一个令人吃惊的结果。因为在过去40年的专家系统开发中,这些问题一直都困扰着整个知识工程界,只是现在在金融领域,我们再次遇到了这些拦路虎。

所以我要为 Kensho 团队点赞:他们做得非常好,Kensho团队现在是600多个人,他们技术部门是100多人,用100多个技术人员,就能把这样高复杂度的问题做到现在的结果,非常不容易。

跳出 kensho 思考智能金融

前面主要是在讲 Kensho 是什么,大多数都在陈述事实。在这一篇章,我主要讲我的观点,还有信仰。

先说一个事实,过去4年了,我们没有看到真正的 Kensho 的复制品。为什么会没有?我提出两个观点和一个信仰。

第一个观点,Kensho 不会取代任何人,所以说刚开始我给大家看的三个新闻截图,我认为是不会发生的。Kensho 不会取代任何交易员,Kensho 不会取代任何投资经理,Kensho 不会取代任何分析师,甚至 Kensho 未必会取代任何实习生。因为它所要做的事情跟我们对它的期望,其实是有很大的距离的。

第二个观点,Kensho在中国目前无法复制,从技术、产品、商业模式几个层面上来分析。

技术层面刚才分析过了,想造出这样的产品来,可能还需要一段时间的发展。

数据层面这边,金融数据是不是能开放,基础数据库、公告数据库、研报数据库,市场上是不是有厂商可以提供?中国现在有400种公告,每天就有大概2000多份公告,还不算新三板的。这些公告绝大多数没有结构化,什么时候能够结构化? 

我们之前有研报的一致性预期,研报里面仅仅只有这些信息可以用吗?很多其他的信息,不管是做交易,还是做监管,都是需要的。

还有新闻,每天成千上万条新闻。舆情监控基本上只能做到一个正负面,是不是可以再深入分析?大量的新闻里面的数据是不是能够被应用起来?我们脱离这些数据基础来造 Kensho,现在是造不出来的。

最后一点,从商业模式上来讲。Kensho最早的商业模式,应该是帮助这些券商获客,或者来提高客户留存率。因为券商作为一个服务机构,它向客户提供投研能力,让更多的交易发生在自己的平台上面,从而提高分仓佣金,这是一种商业模式。Kensho 从中可以分到一笔钱。这个模式在中国能不能复制成功?到目前为止还没有先例,也许可以。

最后我认为,我们现在做智能金融,可能大家就直接奔着提高交易的效率,或者是挣更多的钱,或者是打败这个市场的思路,这个模式是不是应该追求的?经过两年多的探索之后,我认为这个事情未必应该是这样的,或者说智能金融应该有一个更大的途径,而不仅仅是追求 Kensho 这一个途径

这个途径,我认为应该是通过零件的打造,逐步走向所谓大工业的金融

前两天,我们跟另外一个证券公司的人聊过,他们从两年前就开始想复制 Kensho,内部加上外部的合作商一起开发,都开发不出来,他很失望。

“Kensho”,打引号的Kensho,不是说Kensho本身,而是这样一种聪明的金融专家系统,是我们的目标。可能路径比我们的目标更重要。目标是引导我们走向未来的一个明灯,但是我们真正想走到目标,更重要的是怎么去设计这个路径。

是不是我们直奔着目标,这个路径就对了?大多数的历史进程里面,证明不是这个样子的,我们需要迂回。

所以在我看来,就目前这几年时间,比较合理的目标和路径,是把一部分信息处理流程标准件化,这是目前阶段比较合理的追求目标。

大概两年前,我去一个资管公司,他们有千亿以上的总资产。总经理问了我两个问题:第一,你现在立即、马上就能帮我挣钱吗?第二,你是不是立即、马上,就能够帮我比市场上其他人挣更多的钱?

我实事求是地说,好像这两个答案,我现在都不能给你肯定的答复。

他说如果做不到,那你们搞智能金融还有什么意义?

我相信这个想法,可能在那个时候非常普遍,是一种非常高的预期。最近这两年跟大家沟通的过程中,越来越少地听到这样的想法。

我们跟多家机构合作都找到了更小的落地点,大家不再追求这样一个可以说是非理性的目标了。

回过头来,咱们想一想,如果这家公司有数千亿,你能持久地高于市场的回报率,最终的结果会是什么?这种事情真的有可能发生吗?任何人也打败不了市场,市场打败不了市场本身。

文因互联
文因互联

当人工智能遇见金融

产业Kensho智能金融
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

可扩展标记语言技术

可扩展标记语言,是一种标记语言。标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种信息的文章等。如何定义这些标记,既可以选择国际通用的标记语言,比如HTML,也可以使用像XML这样由相关人士自由决定的标记语言,这就是语言的可扩展性。XML是从标准通用标记语言中简化修改出来的

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

本体工程技术

本体工程,又称为本体论工程、本体论设计或本体设计,是计算机科学与信息科学当中的一个新兴领域,旨在研究用于构建本体的方法和方法学。本体工程乃是一个新兴的研究和应用领域,关注的是本体开发过程、本体生命周期、用于构建本体的方法和方法学以及那些用于支持这些方面的工具套装和语言。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

回归分析技术

回归分析是一种用于估计变量之间的关系(当一个自变量变化而其它变量固定时,因变量会如何变化)的统计过程,在预测任务中有广泛的应用。回归分析模型有不同的种类,其中最流行的是线性回归和 逻辑回归(Logistic Regression)。另外还有多变量回归、泊松回归、逐步回归、脊回归(Ridge Regression)、套索回归(Lasso Regression)和多项式回归等等。随机梯度下降(SGD)就是一种起源于回归分析的常用方法,可用于控制复杂度。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

暂无评论
暂无评论~