随机森林算法在多因子选股上的应用

来源 :经营管理者·下旬刊 | 被引量 : 0次 | 上传用户:wish_hjl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要::量化对冲基金发展在国内国际发展迅速,机器学习在量化投资中运用广泛,通过随机森林算法,评价因子选取股票,实现28%的年化收益,超越同时期hs300指数。
  关键词:多因子 随机森林 选股
  一、引言
  截止至2016年第四季度,全球对冲基金管理资产规模从1997年的1182亿美元发展到2016年四季度的2.85亿美元。结合管理期货基金(CTA),全球量化對冲基金(不含FOF)管理资产规模已经接近3.2万亿美元。截止至2016年12月份,桥水联合、AQR资本管理、曼氏居全球对冲基金规模榜单的前三位。在国外对冲基金大发展的背景之下,国内基金行业的量化对冲基金也在突飞猛进。截止2016年第三季度,国内量化对冲基金接近600亿。当前国内量化对冲基金有两大类型,第一,中性策略产品,即股票多空策略产品:利用多因子模型优选相对股指具有超额收益的股票组合,买入股票组合的同时做空股指,在对冲掉系统性风险后获取超额收益。第二,量化套利策略产品,量化套利策略指在价格具有很强相关性的产品之间寻找价差,当价差达到一定程度时对产品进行反向操作,以获取价差部分的收益。当前的量化套利策略主要有期限套利、ETF 套利、固定收益套利、可转债套利、分级基金套利等。在第一类中,通过多因子选股并在相应在股指做空的中性策略成为量化对冲基金的主流。
  二、机器学习
  在机器学习领域的主要目标就是开发能够实现各种学习形式的计算方法,尤其是能够从样本或数据中归纳出知识的机制。机器学习往往能找出人类直观感觉无法探测的规律模式,从而辅助人们进行决策分析。机器学习的一般框架如图一所示。学习系统旨在根据提供的一组概念样本和背景知识,确定特定概念的描述。基于机器学习的多因子选股模型本质上是一个二元分类问题。将股票池中表现好的个股标为类1,而表现不好的标类-1。建立分类器从而描述因子池中各因子与下期收益表现的关系。模型的输入一般表现为预测该样本为某类的概率,或者称为信任得分,信任得分越大则为该类的可能性越大。因此模型的构建主要分为两步:(1)根据各股历史下一期收益率划分类标,历史当期因子数据对分类器进行训练得到相关参数。(2)代入实际当期各股因子数据对各股进行分类,得到各股的信任得分。那么模型的关键落在分类的选择。传统的分类器包括决策树分类器,基于规则的分类器,最近邻分类器,神经网络,支持向量机等。
  三、随机森林
  随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元贡献性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用。
  1. Gin importance值和Permutation importance值。随机森林方法的一个重要特性是能够计算每个变量的重要性值,RF提供两种基本的变量重要性值:Gini importance值和 Permutation importance值。(1)Gini importance值。在节点分裂过程中用Gini系数来衡量各节点的样本纯度,Gini系数定为:
  任取一个属性变量,对森林中的所有选择该变量为分裂变量的节点计算不纯度降低量的总和,可获得的Gini importance,即:
  (2)Permutation importance值。通过随机森林T中的每棵树t对样本计算预测准确率。将预测准确率的改变量对T取算术平均,可获得该变量的Permutation importance,即:
  2.随机森林算法条件控制。森林中所要生长出的树的个数ntree,生长每棵树中节点分裂随机选择的变量子集中变量的个数mtry,以及每棵树的规模,在用于样本的预测分类的情况下,每个样本所占的权重也可以设置。mtry越大,自由度越小。参数ntree值越大越好。限制树的规模有一定的效应,因为可以加快计算的速度,特别是对于有很多噪声变量的情况下,可以减少多余的节点分裂而生成仅含有重要变量的更小规模的分类回归树。
  四、实证研究
  选取2007至2015年9年A股数据,包括主板、中小板和创业板。由于A股溢价效应明显,选股标准为上市时间超过180天。
  1.构建因子库。通过参考海通证券因子库,构建因子如下,规模:市值、流通市值。盈利能力:净资产收益率、总资产净利率、净利润率。偿债能力:流动比率、速动比率、资产负债率。股东获利能力:市盈率、市净率、每股净收益、上市以来分红率。成长能力:营业收入增长率、净利润增长率、总资产增长率、固定资产扩张增长率、wind一致预期净利润同比。营运能力:存货周转率、总资产周转率。其他因子:Z值。一共20个因子。
  2.因子选择。通过训练就九年的数据,在2007年选取时间段为2007年5月1日至2008年5月1日,因为每年的上市公司的年报在4月30日之前必须披露。选取的时间5月1日为节点更加合理。选取收益率为前300名的股票为标记为1,300名以后的股票标记为-1。每一年基尼系数最大的得分为20,以此类推,最后一名为1。经过计算9年的因子得分情况如下表所示:
  通过上表可以发现净利润增长率、市值和营业收入增长率在20个因子当中表现最突出。
  3.多因子选股。通过训练前一年数据,根据后一年的年报选股,在因子选择中,净利润增长率为最重要的因子,所以在选取的股票中按照净利润增长率排名,选取前50只股票,并参照同时期hs300指数对比,如图1所示:
  在2007年5月1日至2016年5月1日期间累计净值为9.2315,总收益为823%,年化超过28%的收益。而在此期间hs300的累计净值为0.8870,收益为-11.3%。
  参考文献:
  [1]刘洋,夏思雨,胡思瑞,林思亮. GARP数量化选股及马尔科夫链择时策略研究[J]. 金融与经济,2016,(05):66-71.
  [2]王珏,张新民. 基于bootstrap分析方法的我国基金经理选股能力研究[J]. 中国软科学,2013,(11):139-150.
  作者简介:李齐(1992—),男,汉,河南驻马店人,陕西科技大学经济与管理学院金融专业硕士,主要从事量化投资研究。杨君岐(1962—),男,汉,陕西岐山县人,陕西科技大学经济与管理学院教授,研究生导师,主要从事数量经济学与量化投资研究。
其他文献
摘 要:确立民主政治是政治现代化的基本目标。这正如阿尔蒙德所指出的:政治发展面临的核心问题之一就是政治参与问题,即各种社会集团施加压力,要求参加政治体系的政策制定问题。塞缪尔·亨廷顿也认为,政治现代化意味着增加社会上所有集团参政的程度,以拓宽“政治参与面”,实现“政治参与的平等”。综合考虑学者对“政治现代化”观点,此次主要以“政治参与面的扩大”这一角度,以英国和日本为实例,来阐述“政治现代化”——
期刊
摘 要:中国电信自2003年开始内控体系建设,目前取得一定成效,但也存在诸多问题,本文依据COSO框架,从改善中国电信内部控制实效角度出发,对中国电信内部控制存在的问题进行分析,并针对这些问题,提出改善内控建设的若干对策,以求为中国电信在完善风险管理体系上起到较好的借鉴作用。  关键词:中国电信 內部控制 问题及对策  一、引言  2002年7月30日,《萨班斯-奥克斯利法案》(SOX)颁布,中国
期刊
摘 要:随着社会的发展及时代的进步,我们国家人们的思想在二十一世纪之后,经历了很大的转变。越来越多的人希望可以利用合理的方法来对企业以及人员进行安排。并且通过合理的安排让人员之间的撘对可以获得更加强大的动力。让有限的人员可以发挥出无限的实力。因此,管理这一概念被更多的人所接受。被越来越多的人所关注。就目前我们国家对于管理的研究情况来说,大量的理论知识限制了其发展。藉此,本文立足于管理的基本概念,对
期刊
摘 要:贸易成本是现实经济贸易中的重要组成部分,也是贸易与经济构成中重要组成部分,学者普遍认为贸易成本对国家经济表现与福利有着重要的关联影响。但以往关于贸易成本的测算研究往往着眼于国际贸易领域,而对国家内部区域间的分析与研究较少,本文尝试以改进引力模型方法,加上中国经济区域间投入产出表数据,分析与测算中国区域间贸易成本。  关键词:区域经济 贸易成本  一、引言  在过去半个世纪的时间里,随着人类
期刊
摘 要:实体经济在我国的社会经济发展中有着极其重要的地位,对我国社会经济的迅猛发展起到了至关重要的作用。但是虚拟经济的迅速发展对实体经济造成了严峻挑战,实体经济发展进入瓶颈期。如何摆脱实体经济发展的困境对我国社会经济发展来说,具有着深远的社会意义和时代意义。  关键词:实体经济 困境摆脱 挑战 虚拟经济  一、引言  实体经济在发展中遇到了诸多问题,例如利润空间小,利息负担重,税费繁多,虚拟经济的
期刊
摘 要:职业教育在农村转移劳动力完成市民化过程中发挥着重要作用。受教育权是公民的基本权利,我国农村转移劳动力的职业教育权益有必要进一步从政策和法律制度层面上加以完善,建立相应的保障制度。  关键词:市民化 农村转移劳动力 职业教育 权益保障 政策和法律  一、市民化背景下农村转移劳动力职业教育权益政策和法律保障的意义  教育是一国的立国之本,综观世界各个先进国家,其发展无不以普及教育、提高国民的整
期刊
摘 要:随着信息化的发展,传统产业的边际逐渐模糊,不同产业或同一产业不同行业之间发生相互渗透,相互交叉的产业融合现象,最终形成新的业态。在产业融合发展过程中,不同产业会呈现出不同的融合模式和成长路径。本文通过产业渗透、产业延伸、产业重组三种方式对北京CBD产业融合成长路径进行分析,帮助我们更好的理解产业融合的本质,也有利于找到更适合北京CBD的产业融合类型。  关键词:北京CBD 产业融合 成长路
期刊
摘 要:在现代化的企业发展中,企业拥有合理的成本管理与控制非常重要。只有充分的发挥好成本管理与控制的作用,企业当中财务方面的管理与企业的经济效益才能有效的提高。但是针对企业的现状来讲,成本管理与控制在手段上存在严重的滞后,企业成本的发展不足,在这样的情况下,导致企业在发展的过程当中出现一些负面的影响。文章从企业成本管理与控制的重要性展开分析,重点阐述目前企业成管理控制方式中存在的问题,根据企业的发
期刊
摘 要:生育权是每个自然人都应当享有的基本权利,男性也应当是生育权的权利主体,与女性享有同等的权利。然而我国法律对于婚姻家庭关系中男性生育权的保护存在一定程度的不足,使男性生育权的实现无法保障,需要对保护和实现男性生育权提出切实可行的措施。  关键词:生育权 男性生育权  随着我国社会经济的发展和人民生活水平的提高,在现实生活和司法实践中出现了不少夫妻双方因生育问题而产生纠纷的情况。由于此前我国法
期刊
摘 要:当前,高校创新创业教育工作对高校辅导员的专业化要求进一步提高,本研究通过问卷调查的方法,以华北地区为例,总结华北高校辅导员群体特征,并进一步分析高校辅导员从事创新创业教育的优势及短板。结合以上分析,综合前人在辅导员“双创”课题的研究成果,从辅导员专业化发展的角度出发,分别从专兼结合、细化方向和校企合作三个方面探讨了高校辅导员在创新创业教育方面专业化的培养方法。  关键词:创新创业教育 辅导
期刊