节省AI开发90%的时间,彭博让你获得直接可用的数据

与大多数人的想象不同,在机器学习领域里,处理数据所耗费的精力占据着最多比例。通常情况下,每购买 1 美元的数据,我们需要花费 5-7 美元来清理,才能让它用于机器学习模型的训练与推理。在这个过程中,数据科学家要耗费整个开发流程 80-90% 的时间。

如果可供使用的数据标准化且直接可用,成本和效率的提升就会让科技公司获得前所未有的优势。在这一方面,彭博是业内领先的数据服务提供商。

数据服务并不止于交易数据,今年 2 月 21 日,彭博宣布推出「另类数据」服务,其中包括 20 余种新类型数据,如基于人工智能大数据处理得到的人流、社交媒体情绪数据,它们可以帮助投资者在瞬息万变的市场中带来先机。今天,作为人工智能大潮的一部分,数据服务正在迈向全新的阶段。

彭博为众多金融机构提供多种数据类别及服务,涵盖实时数据、参考数据、定价数据和监管数据等。近日,我们与彭博企业数据全球负责人 Gerard Francis 进行了一番交流,他向我们介绍了彭博数据业务的发展,以及他对于在投资领域应用 AI 的看法。

Gerard Francis

「在金融领域里,我们是全球最大的数据供应商。」Gerard Francis 表示。彭博现在的数据提供平台中已拥有实时数据、参考数据、另类数据、衍生数据等种类的数据集,且提供数据的方式多种多样:从 API 到数据接入网站皆可以获取。用户可以在数据的基础上使用自己的程序进行处理。

彭博企业级数据业务始于 1997 年,至今已有 22 年历史了。目前,全球最大的金融机构都在依赖彭博的数据开展自己的业务。

彭博最近的方向是提供各种类型的「另类数据」:从卫星图像到博客内容中收集的情绪信息,再到 APP 的下载趋势。在彭博数据接入网站 Bloomberg Enterprise Access Point 上,我们可以找到很多不同类型的数据。彭博称,目前该网站可提供 2700 余种参考数据集,200 余种估值数据集,400 余种另类数据集以及近 600 余种监管数据集等。

比起技术人员常使用的 GitHub,使用这个平台更像是在浏览亚马逊购物网站——你可以在其上浏览各种产品,并购买其中想要的。

Gerard Francis 以北美股票参考数据为例进行了演示。数据集下载完成后可以看到是 CSV 文件,可用 Excel 直接打开,其中的数据非常干净整洁,无需进行任何其他处理就可以直接使用了。对于彭博的所有数据集,人们都可以直接下载使用。

价格之外的另类数据

Bloomberg Enterprise Access Point(BEAP)是彭博企业数据业务新近推出的一项服务,于 2018 年 9 月推出。这是一个在线数据平台,为 Bloomberg Data License 客户提供标准化的参考、定价、监管,以及另类数据集。彭博今年 2 月刚推出的「另类数据(Alternative data)」收集了很多前所未有的内容,可以帮助投资者在交易中夺取先机。

另类数据是彭博最近提出的新数据类型。在这一分类中,我们可以找到来自很多不同类型数据公司提供的内容。目前,BEAP 拥有 20 多套另类数据集,其中包括对金属库存、股票博客情绪、药品审批、消费者客流量和停车场活动、建筑许可、地缘政治风险和应用利用率的洞察。彭博计划在未来每个月都会加入更多的数据类型。

「另类数据正在变得越来越重要,」Francis 介绍道,「其中主要有两个原因。其一是我们的客户正在寻找提高 Alpha(超额收益)的方法。其二是另类数据通常难以使用。它数量巨大、笨重而难以处理,人们很难找到它的价值。但这却是机器学习和 AI 可以发挥作用的地方,通过应用这些技术帮助我们找到价值。」

彭博通过 BEAP 网站提供另类数据业务可以一站式解决金融行业数据科学家对于内容的需求,无需面对多个合同和供应商。另一方面,彭博的数据提供使用了标准化的 API,从而节省了技术人员的使用步骤。

为了保证另类数据的准确性,彭博的数据团队中有很多技术人员专注于数据处理。这家公司也在使用很多各类先进的技术来处理数据。据介绍,彭博的数据部门非常庞大,目前约有包括正式员工和供应商在内 5000 多人专注于数据。

在另类数据集中,我们可以找到一些很有意思的内容:商场的人流、停车场拥挤情况、手机 APP 的下载量,甚至某个地区出现不稳定的可能性。「我们的数据提供商之一 Apptopia 是个很有意思的公司,他们提供的数据可以告诉你所有 APP 在 Google Play 和 Apple Store 上的下载数量。」Francis 介绍道。

彭博展示的另一个例子是地缘政治风险数据,其来自 Predata 公司。数据供应商会收集很多预警和指标,对于政治风险、经济增长、社会不稳定等进行评分,从而获得一系列的数据。如果一个人正在做风险管理任务,他们可以在这里获得有关国家潜在风险的提示。

这些数据本身来自于公开信息,被各家数据公司收集后进行处理。对于分析师来说,这可以帮助理解竞争对手的业务情况,也可以在某一次投资前做好背景调查。

在另类数据领域有很多垂直领域的公司,但彭博拥有一站式的数据服务平台将大量另类数据整合在这一平台上。「对于一些数据提供商来说,他们可能会面临缺乏客户的问题。」Francis 表示,「但是加入彭博平台以后,他们的数据可以被更多投资者发现,也许很快会变成热门产品了。」

情绪数据,一秒总结全文

彭博最为大众所知的或许还是新闻报道,其提供的权威性新闻评论及观点常常会成为市场的风向标。很多短线投资者会在新闻爆出后的数秒内进行判断并发出交易指令。如果让 AI 来直接判定一条新闻是否「值得交易」,或许可以为交易员争夺一些宝贵时间。

彭博已经使用自然语言处理技术读取自家新闻社记者们撰写的新闻内容,随后使用数学算法来计算情绪数据。另外,来自推特等社交媒体的信息也「尽在掌控中」。该数据产品称为「Event Driven Feed」(事件驱动数据流)。

在这方面机器确实比人要快。彭博采用了机器学习算法,每当新闻写好之后,我们就立即能够获得这个故事的评分。随后,彭博终端就会发出推送,实时告知客户。从记者写好一篇文章再到客户获得评分,在这期间耗费的时间不到一秒钟。

情绪数据是一种经过深度学习处理过的数据,如何解决「黑箱」问题呢?彭博认为可以通过使用数据样本进行回溯测试等方式,从数学上获得稳定的结果,解决人们的疑虑。

客户们对于这种新鲜事物还在探索和适应的过程中。「一些人对这种分析的可靠性表示满意——通过回溯测试以及不断训练新的数据进行投资;」Francis 表示,「有些时候客户对此不会满意,这取决于客户的类型和他们的投资方式。我们发现很多中国客户非常乐于尝试机器学习这样的新方法,以求获得更好的回报。而另外一些国家的投资者会相对保守,或许对冲基金会接受,但基金经理不会接受。」

有关英伟达的推特消息发出后,股价的波动情况。市场会在短时间内作出反应。(图片来自 Bloomberg)

在这其中最重要的是不同的交易策略,一些人走短线,一些人走长线。他们都可以通过数据获得自己所需的信息。对于那些交易速度非常快的人,比如一些对冲基金,当他们获得新闻报道的标题时,会很快将其转换为交易动作。有时在看到标题的一秒钟内,他们就会进行交易。

「目前全球 有 50 多家机构在使用 Event Driven Feed 产品,其中至少有五个客户正在使用中文推送流,」Francis 介绍道,「其中一些是中国公司。这是一个新的趋势,我们的业务重点正在从纽约和欧洲转向亚洲。」

新数据带来的收益

随着彭博新数据服务的发展,越来越多的金融机构开始将目光转向于数据平台。「很多客户会下载数据后进行测试,当找到信号之后将其转化为收益,如果行之有效,他们就会购买数据集。已经有一些客户开始购买这些数据了。」Francis 表示。

对于量化投资而言,使用最先进的技术才能带来最大收益。很多彭博数据的客户都在使用机器学习人工智能技术来处理金融数据,以形成他们的投资策略。Gerard Francis 认为在彭博数据业务的客户中已有 80% 正在使用 AI 算法,而 20% 仍在使用传统的投资模型。

除了带来更多预期收益之外,人工智能机器学习对于金融市场的影响方式有很多种。在风险投资领域有很多人正在使用 AI 算法进行风险回测,寻找压力区域。也有人在使用 AI 识别交易员的风险操作。人工智能会在金融领域里或许还有很多新类型的应用。

尽管机构不会直接披露通过技术获得的收益数据,但我们已可以看到人工智能进入金融行业的趋势了。在 20 年以前,很少有投资机构会去研究 AI,但随着深度学习的发展,今天我们可以看到大量金融公司正在研究人工智能

Citadel 首席人工智能邓力。一些对冲基金为了技术甚至招揽了著名 AI 科学家,2017 年 5 月,前微软首席人工智能科学家邓力宣布加盟对冲基金巨头 Citadel。2018 年 8 月,《终极算法》一书的作者,华盛顿大学教授 Pedro Domingos 也被 DE Shaw 签下。

如果去看看一些科技基金的回报率,如 Bridgewater 和 Renaissance Capital,你会发现它们拥有惊人的回报率,这正是量化技术的功劳。

在金融数据业务的赛道上,目前最大的公司是彭博和 Refinitiv(后者是 Blackstone 和汤森路透旗下金融品牌)。随着金融机构对数据数量、质量需求的提升和成本压力的增加,越来越多的机构倾向于减少数据供应商的数量,「他们期待从一家供应商那里获得尽可能丰富的数据和服务,这样可以帮助他们提高运营的效率,并且更经济。而彭博正是他们很好的选择。」Francis 对于彭博企业数据业务的未来充满信心。

彭博来到中国已有一段时间,这家公司与各类金融机构和监管部门都保持了密切的联系,从而获得丰富的金融数据,覆盖各资产类别和市场。随着中国市场的国际化,国内的金融机构正在逐渐开始使用新技术,而彭博也乐于将其全球经验分享给中国客户。

未来,人工智能将随着数据服务的发展而变革。「我们的世界将变得高度自动化。」Gerard Francis 表示,「我认为人们会通过大量数据 API 和数据交换互相连接——所有数据中心都在云端。云服务将承载应用程序,人们在云端直接消费并传递数据。」 

产业数据彭博
2
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
邓力人物

邓力,本科毕业于中国科学技术大学,随后在威斯康星大学麦迪逊分校获的硕士和博士学位。曾任微软人工智能首席科学家。邓力2009 年就同 Geoffrey Hinton 教授合作,首次提出并将深度神经网络应用到大规模语言识别中,显著提高了机器对语音的识别率,极大推动了人机交互领域的发展与进步。2017年5月,他加入了市值300亿美元的对冲基金Citadel并担任首席人工智能官。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

暂无评论
暂无评论~