论文部分内容阅读
近年来,在金融时间序列的预测方面,怎样获取更高的超额收益,是基金机构和投资者格外关注的问题。量化投资理论与机器学习分类模型相结合,以其高度的理性化、全面性和系统性等特点,已经成为国内外的主流投资方案。量化投资在美国已经有了30多年的发展历史,在美国的投资市场中,量化投资成交量占比高达80%左右,基金机构通过数据挖掘相关方法挖掘股票市场中的信息,并结合数学模型构建数量化的投资模型,选择出合适股票组合,从而获得高额的超额收益。与美国较为成熟与完善的量化投资市场相比而言,我国量化投资存在起步较晚,量化投资总体规模小、量化策略比较单一等劣势。但近十年来随着我国股市投资市场和股民数量迅速增长,此时,若通过推广量化投资方式和挖掘新的机器学习模型,来丰富国内投资策略方案,提升股市规模,带动经济持续平稳增长,就显得尤为重要。在诸多量化投资方案中,多因子选股模型凭借其全面性、稳定性等优点,成为量化投资方案最为重要的一种模型,也是目前国内最为流行的模型。在多因子选股模型中,主要致力于解决因子池的构建与分类模型的选择两个问题。基于以上两个方面,研究过程中都做了相应的模型优化与改进。在因子池的构建过程中,在参考了多篇文献过后,根据现有因子在模型中表现结果,选取了动量、波动率、市值等34个有效因子。在分类模型的选取方面,采用比较新颖的深度森林算法(gcForest),该算法较深度神经网络而言,有着更少的超参数的设置,且对参数有着更好的鲁棒性。此外,还将gcForest算法与随机森林、支持向量机(SVM)算法进行了比较,结果证实了gcForest不仅能够获得更高的超额收益,同时具有更好的稳定性与泛化能力。根据以上设计思路,建立基于gcForest多因子量化投资策略,将股票预测收益率大于0的股票标记为1,否则标记为0,采用股票预测收益率大于1的概率值作为每只股票的得分结果。每月月末在沪深300成分股中买入gcForest算法预测上涨且得分结果排名靠前30的股票,并进行回测。研究结果表明,gcForest算法的年化收益率为29.2%,远超基准年化收益率的15.0%,并且获得了15.8%的超额收益。同时还将gcForest算法同随机森林和支持向量机算法进行了比较,从各项技术指标综合分析来看,gcForest算法在股市行情平稳和上涨时期都较其它算法有着明显的优势。最后本文仿照gcForest模型的级联结构,构造了Deep-SVM、Deep-Logistic、Deep-SVM-Logistic-RF三种改改进模型,在基于沪深300指数成分股的股票组合中,Deep-SVM、Deep-Logistic两种改进模型在回测期间的收益、风险和风险调整收益三个方面均展现出优于gcForest的结果,说明Deep-SVM、Deep-Logistic两种改进模型较gcForest具有一定的优势。