基于AI排序算法的指数增强策略【附源码】

摘要:本文基于AI排序算法实现一个指数增强策略样例,并在文末附上实现代码,为大家提供一个参考,大家可以直接点击文末链接,前往BigQuant人工智能量化投资平台直接进行实现。

在介绍AI排序算法之前我们先介绍另外一个术语:特征工程

特征工程是使用专业背景知识和技巧来处理数据,使得特征能在机器学习算法上发挥更好作用的工程实践。这样解释可能并不直观。举例说明,当我们选择用指标来评估一个人身体健康程度时,我们一般联想到的是身高和体重指标,这是两个不同的维度对数据进行记录,如果我们用身高除以体重这个衍生计算出来的比值来评估一个人身体健康状况,可能预测准确率比单单以身高或者体重进行预测效果好,这就是特征工程中如何构建特征的具体运用。

股票市场上机构最常见的量化选股策略为:多因子选股策略,其基本假设是:相似的资产会有相似的回报, 由于某些特定的原因(特征,也称为因子),资产会表现的十分类似,例如价量变化、行业、规模或者利率变化。因此通过股票的因子就能预测股票未来收益率,一些常年有效的因子包括:动量因子、反转因子、成长因子、财务质量因子、盈利能力因子、股东因子、波动率因子等等。多因子选股策略从本质上来说也是机器学习特征工程的运用,通过构建衍生因子来对股票未来收益率进行预测。

互联网领域由于数据量大,天生就是机器学习的主战场,本文要介绍的排序学习算法在互联网领域已经有着广泛而成熟的运用。排序学习是一种广泛使用的监督学习方法 (Supervised Learning),比如推荐系统的候选产品、用户排序,搜索引擎的文档排序,机器翻译中的候选结果排序等等,该算法可以很好地将排序和选股结合起来。

策略设计

指数增强

指数增强类产品近两年比较火,一般指买入某个指数成分股,并通过择时、仓位动态调整等方式获得超越指数收益的策略。本文的策略有所差异,不是买入所有指数成分,而是以某一指数确定股票池,然后通过算法对指数成分股票进行排序,买入排序靠前的股票来实现获得超越指数收益的目的。

股票池
以上证50指数成分股为股票池。同理,也可以以沪深300、中证800或者某一行业的股票为股票池。

训练集和测试集确定
本文以2011-01-01至2016-01-01期间的数据作为训练集,以2016-01-01至2018-01-22期间的数据作为测试集。因此本文的策略回测区间为2016年以来。

数据标注
将股票未来5日的收益率进行离散化,映射到1至20共20个分类,标注高表示收益率高,这里离散化采取的是等宽离散化。

特征抽取
本文抽取的特征需要特别介绍的是个股相对于上证50指数(000016)的超额收益率数据,该特征的抽取采取的是方法是:用户自定义表达式函数抽取衍生特征,该方法能够非常自由灵活地抽取特征,比如可以抽取A股票相对于B股票的涨幅这类的特征,将大大丰富机器学习策略所需用到的因子体系,推进机器学习量化策略的开发提升到新的高度。

资金管理
多因子选股策略一般是按月调仓,但是本文的策略并不是按月调仓,而是每日调整部分持仓,这样做最大的好处就是能够及时更新选股结果,适应市场状况,尤其是采用了一些短期变化剧烈的价量因子的时候。我们也尝试过按固定周期全部仓位调仓,效果确实差一些。在买入股票的时候,本文策略也并不是多因子策略的等权重买入股票的思想,因为AI排序算法本身是对股票是否值得买入的一个综合排序,等权重思想与之不太切合,排序在前的股票买入权重越大、排序靠后的股票买入权重越小的思想更为适合,因此每只股票的买入权重可能差异很大。

回测交易
当AI排序算法在预测集上进行预测以后,我们可以通过一些机器学习的指标(比如NDCG)来检验预测的准确性,但对于策略思想检验而言,这并不直观,最直观的方式就是按照预测结果指导投资交易行为,采取收益率曲线来检验算法预测的准确性。本文策略回测区间为测试集时间跨度,策略基准为上证50指数。

策略效果
策略总收益为52.07%,年化收益为23.37%,夏普比率为0.95,最大回撤为16.04%。由于基准总收益率为29.31%,策略总收益为52.07%,因此该策略确实达到了指数上的增强效果。

image

接着看了一下该策略的风险暴露,发现基本上是集中在价值因子和规模因子上,这很好解释,因为上证50的股票本身规模很大,从公司价值本身来看都很不错。完整代码 在文末附件,对量化感兴趣的朋友可以接着开发优化。

image

附件

代码地址:基于AI排序算法的指数增强策略

本文由BigQuant人工智能量化投资平台原创推出,版权归BigQuant所有,转载请注明出处。 

宽邦科技
宽邦科技

提供金融行业人工智能平台和服务解决方案,研发了全国首个人工智能量化投资平台BigQuant,拥有全栈人工智能平台和大规模机器学习和深度学习框架与算法,为券商、银行、保险、资管等金融机构以及更多企业提供AI技术方案和业务解决方案,实现机构及企业的AI转型和升级。

理论特征抽取机器学习特征工程量化投资排序算法
1
相关数据
排序算法技术

排序算法是将一串数据依照特定排序方式进行排列的算法,最常用到的排序方式是数值顺序以及字典顺序。基本上,排序算法的输出必须遵守下列两个原则:输出结果为递增序列(递增是针对所需的排序顺序而言);输出结果是原输入的一种排列、或是重组。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

特征抽取技术

动量技术

优化器的一种,是模拟物理里动量的概念,其在相关方向可以加速SGD,抑制振荡,从而加快收敛

推荐文章
暂无评论
暂无评论~