基于随机森林方法的沪深300指数涨跌预测研究

来源 :天津财经大学 | 被引量 : 9次 | 上传用户:xuanka11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代的智能技术领域,机器学习是人们进行数据挖掘的一个重要方法,随机森林则是机器学习中一种重要的算法。该算法将Bagging与CART决策树相结合,构建一个以决策树为基分类器的集合算法,本质上属于集成学习的范畴。大量研究证实,随机森林算法通过集成学习的方法解决了单分类器的性能瓶颈,具有十分优秀的分类预测能力。并且,由于随机森林算法还具有参数较少、效率高、对噪声容忍度高、不容易过拟合等优点,因而被广泛地被运用于信息科技、生物学、医学、图像识别、金融市场等领域的分类和预测。特别是在股票市场的预测中,由于股票市场具有的动态性、非线性、非参数性等复杂特征,而随机森林方法相较于传统的数据分析手段能够更好地研究这些特征,其应用日益受到研究者的重视。文章先介绍和分析了集成学习和随机森林算法的理论,并在以往的研究经验基础上选取16个技术指标进行分析,将它们作为输入变量训练随机森林分类模型,并通过参数寻优和变量选择等步骤对模型进行优化;最后,将随机森林应用于预测沪深300指数日收盘价的涨跌走势,并对优化后的随机森林模型的预测准确性进行验证。另外,在相同的数据集上建立传统的参数预测模型——Logistic模型,将其预测能力与随机森林模型进行对比分析,从而研究随机森林模型的预测性能以及变量选择方法的有效性。通过以上分析,得出以下结论:随机森林算法在股票市场预测上表现出十分优秀的性能,它在相同测试集上的预测能力明显超过了 Logistic模型。并且,对随机森林使用重复试验的方法,对比不同参数下模型的预测性能,从而确定模型设定中的决策树数量ntree、随机标准选择数量mtry两个重要参数,使用随机森林的变量重要性排名对输入变量组合进行优化,可以显著提高随机森林模型的预测性能、简化模型复杂程度。并且,随机森林的变量筛选手段可以有效地优化Logistic模型的预测能力,说明该变量筛选方法具有一定的推广性。
其他文献
针对某大型百货商场会员画像描绘中的聚类问题进行研究,阐述RFM模型构建用户聚类的建模方法和实现的过程。采用最近消费时间、某段时间间隔内消费次数、消费总金额为模型的三
地理模拟实验课堂教学不仅能够激发学生学习地理的兴趣、提高学生动手操作的能力,而且能够增强学生的团队合作能力、自主学习的能力、知识记忆的能力。以人教版高中地理教材
L-半胱氨酸是组成蛋白质的20种氨基酸中唯一带有巯基的氨基酸,由于侧链上巯基极性强,因而具有一些特殊的反应特性。L-半胱氨酸广泛应用于医药、食品、化妆品行业中,而且从未
科学是“活”的,科学教学也是“活”的.按照课程标准要求把“基本理念转化为自己的教学行为、创造性使用教材、积极开发利用各种教学资源、合理地运用现代信息技术”是有效提
本文分析了新形势下民主党派代表人士队伍建设存在的问题及成因,探讨了创新发展中共统战政策加强民主党派代表人士队伍建设的对策。