论文部分内容阅读
众所周知,金融投资市场并不是一个完全有效的市场,股票及商品等标的的价格是多种因素合力的结果,其价格走势跟随供求关系上下波动,在短期内呈现随机性的同时,也会受其它因素的影响,表现出某种的趋势性和周期性。量化投资作为一种定量交易方式,通过建立合适的数学、统计模型,能够在短时间内处理分析海量的数据信息,判断研究对象未来可能的收益变动和风险情况,对把握投资机会有极大的指引作用。目前我国量化投资还处于起步发展阶段,市场交易制度还存在一定限制,金融衍生工具也比较匮乏,但随着投资者教育的普及,量化投资也逐渐在我国金融交易市场中占据一席之地,未来必将有举足轻重的地位。因此,研究量化策略构建,分析其在市场上的实际应用,以及建立合理有效的策略评价方法是必要的。 本文研究的是股票价格序列模式的挖掘,属于量化投资中非常重要的一个研究领域,主要目的是通过挖掘股票价格序列中大量存在的某些基本特征模式,探讨这些频繁出现的特征是否一定程度上可以对股票价格的变动做出说明。基于这个目的,我们的研究分为两个部分:如何挖掘序列中的频繁特征、分析并验证特征与股票价格之间的联系,通过三个阶段模型完成整个问题的分析。 首先,构建股价序列特征模型对原始股价序列进行挖掘。通过对股价走势图形的分析,定义五种常见的走势特征:上升、下降、顶部、底部和平稳,将符合定义的股价序列作为基础样本,实证中从沪深300指数的所有成分股中进行筛选。为保证样本集合特征的显著性,去除噪声序列,引入调整余弦距离,使用层次聚类对出现频次较少、走势异常的特征或样本进行过滤,保留集合的频繁子类,建立了15个基本特征库。同时为更好的描述特征与股价的关系,在基本特征的基础上定义复合特征,复合特征能说明一种基本特征出现之后,后续股价可能的变动走势,最终挖掘出72个二重复合特征库,为后面的策略构建和评价提供数据支持。 第二,通过多分类器融合模型,提取有效的复合特征制定量化策略。基于复合特征库,使用随机森林、logistics和朴素贝叶斯等分类器可以从整体上分析复合特征与股价变动的联系,针对单分类器拟合效果较差的情况,我们参考集成学习的思想,综合比较后使用bagging构建了多分类器融合模型,提升预测效果。实证中对股票后续收益率的三分类预测准确率为49.19%,对关注的类别一(后续收益率有较高涨幅)准确率为50.61%,远高于随机猜测的33.4%,说明复合特征对价格变动有一定的解释作用。并基于“模型使用的变量越有效,对预测误差影响程度越大”的思路,通过分类器模型泛化误差的变化构造VI统计量度量模型解释变量的重要程度,筛选出重要复合特征制定量化策略。在对10只股票的回测中,策略年化收益17.88%,最大回撤36.90%,绩效指标表现良好。 最后,为更加全面的评价策略的有效性,我们构建了策略评价模型。针对传统评价方法主观性强、优化容易过拟合的缺点,我们引入了自助法,重抽样生成新序列模拟股票不同的价格走势,测试策略在不同市场环境下的表现。基于多次回测表现指标,我们通过Wilcoxon符号秩检验,检验策略在不同行情下的风险收益水平,从而判断策略是否有效。在均线策略测试示例中证明了评价模型可以显著改善传统评价方法可能会错误估计策略表现的情况,使评价结果结果更加客观。实证中对基于序列走势特征的量化策略的有效性进行评价,结果表明策略在各种情况下绩效指标表现良好,能获得稳定的正收益,是一个有效策略,从而验证部分序列复合特征与股价在任何市场走势下都存在稳定的显著联系。 对本文的两个研究成果:基于股价序列特征的量化策略和策略评价模型。通过量化策略可以学习了解序列挖掘过程方法,分析部分特殊序列走势对股价变动的影响,发现未来可能存在的投资机会,具有重要的理论和实际意义;策略评价模型从统计的角度,解决了传统方法主观性强、容易过拟合的问题,可以综合判断包括序列策略在内的其他策略的有效性及变量约束的A/B测试,对量化策略的选择和修改优化有一定的参考价值。