论文部分内容阅读
随机森林算法是一种普适性较强的集成学习算法,预测准确率较高且不易过拟合,但在不同应用场景下仍存在改进空间。针对不同特征数据集,提出从算法构建与算法混合两个方向优化随机森林算法,并将改进后模型用于股指预测中。针对类别不平衡问题,将代价敏感学习引入随机森林模型构建过程,对多数类样本误分类设置更高的代价值,从而提高少数类样本在模型训练时的影响权重,与此同时,为降低模型整体错误分类代价,提出在代价敏感贝叶斯决策的约束下设置损失函数,使其符合平均误分类代价最小准则,以完成对代价敏感随机森林的构建。实验选取KEEL数据集中不平衡度依次递增的五个数据集验证,并与其他优化算法做对比试验,实验结果表明模型在类别不平衡程度不同的数据集上的分类准确度高于其他算法,且稳定性更强。针对传统参数寻优算法效率较低的问题,选取群智能算法中具有代表性的果蝇算法、遗传算法和粒子群算法分别与随机森林模型混合,以提高模型超参数寻优效率。且针对粒子群算法可能陷入局部最优化的问题,提出在精英粒子运动过程中加入柯西扰动项,使其跳出局部最优,而得到全局最优解。实验选取UCI数据集中四个多分类数据集,将混合果蝇算法、遗传算法以及粒子群算法的随机森林做对比试验,实验结果表明在混合算法中,改进后的粒子群算法在随机森林超参数选择中的寻优能力高于其他算法。针对股指数据预测问题,提出利用已优化随机森林模型进行收益率预测。由于股指数据为金融时间序列数据,故需对其进行相关检验与序列预处理后再将其输入模型进行训练。实验选取沪深300与中证500指数从2019到2021的数据作为样本集,选取传统时间序列模型与改进后随机森林模型做对比实验,实验验证相较于传统时间序列模型,改进后随机森林处理股指预测问题时误差更小。综上所述,经过在不同平衡度数据集、多分类样本数据集以及金融时间序列数据集上的验证分析,优化后的随机森林模型预测准确率较高,且稳定性较强,可应用于不同现实场景。