论文部分内容阅读
在现代的智能技术领域,机器学习是人们进行数据挖掘的一个重要方法,随机森林则是机器学习中一种重要的算法。该算法将Bagging与CART决策树相结合,构建一个以决策树为基分类器的集合算法,本质上属于集成学习的范畴。大量研究证实,随机森林算法通过集成学习的方法解决了单分类器的性能瓶颈,具有十分优秀的分类预测能力。并且,由于随机森林算法还具有参数较少、效率高、对噪声容忍度高、不容易过拟合等优点,因而被广泛地被运用于信息科技、生物学、医学、图像识别、金融市场等领域的分类和预测。特别是在股票市场的预测中,由于股票市场具有的动态性、非线性、非参数性等复杂特征,而随机森林方法相较于传统的数据分析手段能够更好地研究这些特征,其应用日益受到研究者的重视。文章先介绍和分析了集成学习和随机森林算法的理论,并在以往的研究经验基础上选取16个技术指标进行分析,将它们作为输入变量训练随机森林分类模型,并通过参数寻优和变量选择等步骤对模型进行优化;最后,将随机森林应用于预测沪深300指数日收盘价的涨跌走势,并对优化后的随机森林模型的预测准确性进行验证。另外,在相同的数据集上建立传统的参数预测模型——Logistic模型,将其预测能力与随机森林模型进行对比分析,从而研究随机森林模型的预测性能以及变量选择方法的有效性。通过以上分析,得出以下结论:随机森林算法在股票市场预测上表现出十分优秀的性能,它在相同测试集上的预测能力明显超过了 Logistic模型。并且,对随机森林使用重复试验的方法,对比不同参数下模型的预测性能,从而确定模型设定中的决策树数量ntree、随机标准选择数量mtry两个重要参数,使用随机森林的变量重要性排名对输入变量组合进行优化,可以显著提高随机森林模型的预测性能、简化模型复杂程度。并且,随机森林的变量筛选手段可以有效地优化Logistic模型的预测能力,说明该变量筛选方法具有一定的推广性。