基于随机森林算法的多因子选股模型研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:eric_vl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究目的为怎样利用机器学习方法与传统多因子选股模型相结合,并构建基于随机森林算法的多因子选股模型,通过随机森林算法对个股进行分类从而筛选出具有投资价值的股票,进而构造有效的投资组合。本文以全A股票作为股票池,以各个大类因子作为因子池,分别选取了价值类、成长类、动量类、财务质量类、技术类以及分析师情绪类六大类共23个因子作为备选因子,因子数据的选取为2010年1月到2017年12月每月最后一个交易日的数据,以因子数据和对应下期股票月收益率数据构建样本集。其中将2010年1月到2013年12月的样本用于模型参数寻优,以确定随机森林算法超参数和最优训练窗长;将2014年1月到2017年12月的样本用于样本外模型回测,以分析模型选股效果。基于随机森林算法的多因子选股模型是一个动态的选股模型,其在每个回测时段都要利用过去6个月的样本数据对模型进行训练,利用当期因子数据进行预测,选取预测概率排名靠前的50只股票作为下期股票持仓,并对其进行等权配置。模型的整个构建过程大体可分为三个部分:数据预处理及有效因子筛选、模型参数优化与结果分析、模型改进与优化。本文基于随机森林算法的多因子选股模型在回测期2014年1月到2017年12月内取得的总收益为160.05%,年化收益为27.64%,大幅度领先市场基准(沪深300与中证500),可证明该选股模型具有较好的选股性能。同时对比分析非动态学习模型,本文构建的动态学习模型体现出其时效性,在一定程度上能反映市场的变化。另外在模型的改进与优化方面,通过以预测概率加权确定组合权重、以因子重要性进行因子再筛选、进行因子轮动都能提升原模型的选股效果。
其他文献
为贯彻落实江苏省金湖县秸秆禁烧禁抛政策实施,推行秸秆全量还田,提升土壤有机质,促进耕地质量提升,从2018年开始,项目组选择在金湖县陈桥镇新宁居委会一组姚建清家承包田,采
政策性金融的支持,有利于农业专业合作社克服因征信问题而产生的融资难题,助力"三农问题"的解决。研究阐述政策性金融支持农业专业合作社发展的意义;从农业专业合作社的金融
目的 观察双环醇对非酒精性脂肪肝的治疗效果。方法 治疗组及对照组均给予常规综合保肝治疗,治疗组加用双环醇50 mg每日3次口服,对照组加用天晴甘平150 mg口服,每日3次,治疗4
目的 探讨腹腔镜下扩大盆腔淋巴结清扫术(extended pelvic lymphnodedissection,e PLND)在高危前列腺癌治疗中的应用价值。方法 回顾性分析2014年10月至2016年5月44例在北京大
当前,我国高等教育由于受传统教育方式的影响,以知识学习为中心的教育现状没有得到根本改变。创建创新人才培养模式,实现以能力发展为中心,培养创新型人才是高校教育改革与发
农村老年妇女是老年弱势群体中的高危人群,现有的非正式支持体系和正式支持体系均不足以在根本上改变农村老年妇女的生存困境。本文认为农村老年妇女应尝试通过挖掘自身的生
随着现代化技术的发展,电缆检测需要钢丝绳爬行器携带仪器检测钢丝绳代替以往由人工巡检的方式。研究中根据仿生学原理提出钢丝绳爬行器结构不同的3种方案,通过对3种不同结构
以微观调查数据为基础,构建有序probit模型对虚拟养老服务满意度的影响因素进行研究,结果表明:虚拟养老服务满意度水平相对较高;虚拟养老服务满意度受年龄、月收入水平、呼叫
营口市站前区政府年轻干部队伍建设是站前区近年来的重要工作,站前区对年轻干部队伍建设采取了一些行动,也进行了一些探索,取得了一定的效果。但是,仍有很多问题制约着站前区年轻干部队伍的发展。本文立足这样的现状,充分考量站前区区域实际和年轻干部的特殊性。同时,探究当前影响站前区政府年轻干部队伍建设的因素和障碍,有针对性地提出相关整改措施。通过选取站前区这一特定区域进行重点研究,并结合国内外相关工作经验,运
景观是受地域文化影响的一种生活方式的呈现,不同景观的空间形态由于其环境、文化的异同而各具特征。20世纪90年代左右,英国社会人类学和美国都市人类学开始将学科眼光发展到景观视角,景观人类学作为一种全新研究领域进入人类学家的视野,研究学者从“写文化”的角度对其展开了深入研究。张家场古城是在特殊历史环境下形成的,积淀了丰富的历史文化底蕴,造就了特色鲜明的古城景观。本文将张家场古城景观视为研究对象,从景观