社交媒体的机器学习技术赋予对冲基金竞争优势

twitter-money-bag1.png

从数据的宇宙里挖掘价值,针对企业名字(股票)或者任何宏观事物进行情感分析是一个复杂的过程,我们在这方面的进度也仅仅有5%而已。


不断扩大的数据集(包括诸如推特上的点赞、图片、文本以及处理过的视频)、专家智慧取代群众智慧、源自「词袋(bag of words)」的情感分析(与结构语言分析相反),参数正通过这些方式,不断进化。


在不久前的 Unicom 大会(主题为:人工智能、机器学习与情感分析的金融应用)(7月14日)集合了一群该领域的专家。Gautum Mitra 教授,汤森路透社的 Elijah DePalma 与 James Cantarella;来自 StockTwits 的 Pierce Crosby,Sentifi 的Anders Bally,RavenPack 的 Peter Hafez 和来自 Twitter 的 Stephen Morse。


Depalma 在其中显得有些不同,因为汤森路透社的情感分析引擎利用了唯一受认可的路透社数据,而不是其他社交媒体上的原始聊天记录。DePalma 解释道,「当我们提取特征时,在学术文献中常用的简单方法是『词袋』法。我们正在做的更加复杂;我们在做语义解析,即你所看到的语法结构——你可以看作是宾语、谓语和主语形式的表达。」


应用中的一个实例可以是这样一句话:「IBM 超越了微软」。一个简单的「词袋」方法会给 IBM 与微软这两个名词相同的情感分数。DePalma 的新分析引擎识别 IBM为主语,微软为宾语,而「超越」作为谓语,其中,主语与宾语的正面/负面的关系则可以通过情感分数来反映:IBM 正面,微软则是负面。


「所以,你是在创造一个语法解析树,相比于『词袋』法中上万个特征,这种方法的一个优势在于:你在创造这些语法解析树的时候有低维度特征表征。这可以让下一步 - 分类 - 更加迅速。它还会让情感评分精确度高出 20%,比如从 60%升到80%。要记住,在人类阅读者中,内在精确度一致性达到了 85%左右。」


DePalma 指出,解析方法也影响了路透社如何处理外国语言,比如日语新闻分析服务。


「为什么不利用像谷歌翻译那样的自动翻译引擎,将日语翻译为英语并运用你们的引擎呢?这是因为我们可能会失去语言的结构,基本上退回到『词类型袋』( a bag of words type)的精确度。」


如 Twitter 一样的非结构化的「噪音」特征的数据还未能阻止大型的对冲基金,资产经理们则希望分析它,获得竞争优势。


Twitter 数据合作关系与销售的高级经理 Stephen Morse 说「对我们来说,金融空间正在急速增长。我们直接服务于对冲基金、自营交易员、做市商、银行、金融科技合伙人等等。」


「我们并不是一个新闻机构,但是 Twitter 上随处都可以看到新闻事件——不仅仅是周围的重大金融事件,还有各种天灾人祸。因此,它是金融市场上的一个重要使用案例,而且情感分析是一个非常常见的使用案例,就像便携支付服务 cashtag 一样。」


「许多 CEO 开始在他们做任何事之前都要先发条 Twitter,比如 Elon Musk。如果你想要知道他在干什么,你得去 Twitter 上看——这是他第一个去的地方,并且常常也是他唯一进行交流的地方。」


Morse 说过,消费者对某些特定的品牌会产生情感,这种情感可以影响股票价格,这是目前正在探索的主题的新转折,我们很期待未来这个转折能有很多的新东西。


他还提到 Twitter 也可以测量宏观世界与地缘政治因素,并引用了一篇去年的研究,该研究展示了美国的失业率水平的数据预测。


StockTwits 提供对于单个企业的实时评论,它也是 cashtag 的发明者,后者后来被 Twitter 采用。


Pierce Crosby 是 StockTwits 的业务总监,也是一位数据布道者(data evangelist),他说「基本上,我们所有的沟通都建立于单个企业之间。我们也让用户去添加二进制数据,这样他们可以对自己的信息添加一个看涨或看跌的标签。」


「从数据库的角度来看,它将会变成一个大型数据库的分类器,因为你有这些二进制数据可以消除掉误报。」


Crosby 说尽管情感显然是一个伸手触手可及的方法,但是,数据也可以用来查看股票的波动性。「我认为,宏观上来看它非常有意思,从公司或业界的角度来看它也非常有趣,我们或多或少会看到不同资产类别或公司或交易基金的实时放量,事实上已经转化成实际波动率。」


「我们已经展开了一项研究,去寻找每日交易活动中的人群和事件的预测因素。所以基本上,尝试将它应用的波动性与社交数据公司关联已经成为人们真正感兴趣的领域。」


Peter Hafez 是 RavenPack 的首席数据科学家,他说过现在一个重要的概念是「民主化数据」。


大型对冲基金与资产经理想知道他们是否能够得到他们需要的数据,无论是公司内部的还是外部的,只要在他们需要的时候。


Peter还说「我们还可以利用许多正在产生的新的数据,许多资产管理公司与对冲基金已经开始倾向于囤积数据。」


任何东西都可以是数据,从电子邮件到即时信息或法律文件都可以是数据。这些都可以提供给那些使用公司的数据引擎的人,就像一个私有云的通道。「到最后,人们试图制造的几乎是一个内部版的亚马逊,在那里你可以在一个平台上说,我希望回到一个我们所知道的 IBM  公司。」

「然后你就可以从合法的部门得到这些。我们从道琼斯通讯社知道这些,我们从 Twitter 上知道这些,我们从收件箱里分析报告中知道这些。因此你可以利用所有这些不同的来源并整合它们。」


DePalma 补充说「在最近五或六个月里,我和许多大型基金经理(甚至超过了上千亿的基金管理资产规模)进行了很多次客户端测试。」


「他们其中一个直白地跟我说,他们相信这些行为金融工具( behaviour finance tools)会在下一个五年或十年成熟起来,并且就像他们的投资经理一样,他们已经将这些信号用于决策过程中。」


「这样当这些工具更加可靠和成熟时,他们的投资经理将已经合并它们,利用它们为大型基金管理服务。」


DePalma 还说道,路透社正在考虑与 Now-Casting Economics 公司建立供应商的合作伙伴关系。「他们可以在一些政府可能没有提供可靠数据的国家或者一些没有政府提供数据的地方,提供诸如通货膨胀与失业等情况的估测。」

入门金融产业机器学习社交媒体
返回顶部