基于机器学习的多因子动态选股模型的实证研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:lanqin2394
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国的证券市场波动率较大,受市场环境的影响较大,传统的技术分析和基本面分析难以在短期内准确预测国内行情,投资者不得不面临预料之外的损失。量化投资策略开始崭露头角,量化策略利用其数学逻辑可以避免交易过程中的情绪决策,同时能够通过自动监控,更高效地完成交易。然而传统的多因子量化选股策略存在一些缺陷:首先,传统的静态投资策略往往只适用于一定时期的市场逻辑,因子通常只在一段时间内有效。因此本研究创造性地提出了多因子动态选股策略,在每个时期动态选择当期的最优因子,使策略能最大程度适应市场变化的风险,在熊市牛市和波动市运作良好。本研究选取了经典的随机森林模型进行动态选股。传统的静态选股方法为筛选出固定的因子池,在投资期间因子都不会变更。本研究通过随机森林回归模型,每季度初以当期过去6个月每期全A市场股票因子值和下期收益率作为训练集和测试集选择重要度排名累计达80%的因子作为当期因子,以季度为频次滚动选择因子。其次,量化策略还有一个缺陷在于:传统的多因子量化选股策略都是基于线性关系来拟合未来行情走势的,而在我国复杂的,高噪声的,非/弱有效的动态市场环境下,线性模型的拟合效果容错性相对较低,回归错误的概率较高,容易造成较高的最大回撤,即容易导致较高的风险。随着机器学习和人工智能领域的不断发展,金融市场机器学习的应用越来越被投资者所接受,从而在投资领域得到了有效应用。机器学习技术能够捕获因子之间的非线性关系。国内(祝养豹,2020)和国外(Lee,2009)证券市场的实证研究均显示,相较于传统的线性分析模型,机器学习算法表现出更好的预测效果,有效提升了收益率。本研究从分类问题的视角看待选股问题,将股票按收益率分为5类(收益率<-10%,-10%-0,0-5%,5%-10%,>10%),引入目前在分类预测领域应用最广泛的3个机器学习算法(XGBoost,SVM和LightGBM算法)进行分类概率预测,在预期收益率最高的类别中选择概率最高的前20只股票作为模型股票精选池。对比3种算法的表现后筛选出最优算法,构建选股模型。综上,本研究构建了一个基于机器学习的多因子动态选股模型,在每期用随机森林模型动态选择当期的最优因子,用机器学习算法对股票收益率进行分类概率预测,使得策略能在熊市牛市和波动市运作良好。既弥补了时效性的不足,又能更准确地做出预测。先确定初始股票池及因子池:本研究选取了聚宽平台上的九大类45个因子作为动态因子筛选的因子池;将2012至2021年十年间的全市场A股数据(剔除ST、新股和次新股)作为股票池。接下来开始构建基于机器学习的多因子动态选股模型。首先,对比了基于XGBoost算法的静态和动态选股策略的差异:实证研究结果表明,基于XGBoost的静态策略的收益率为92.37%,低于沪深300ETF的131.03%的基准收益。而基于XGBoost的动态选股策略在累计收益率、年化收益率方面明显均优于沪深300,最终实现271.47%的总收益,远高于沪深300的131.03%的基准收益。其次,对比了XGBoost,SVM和LightGBM算法在进行分类概率预测时的表现,实证研究结果表明XGBoost的预测表现优于SVM优于LightGBM,进一步体现了XGBoost模型优秀的选股能力和分类概率预测能力。同时确定了基于XGBoost算法的多因子动态选股策略。此外在对比过程中还发现3种算法在同一台设备上的运行速度:LightGBM(平均25s)快于XGBoost快于SVM。最后,进一步优化该策略参数,分别从持仓数量、调仓频率和组合权重3个变量来优化该策略。发现在持仓数量为20只股票,调仓频率为季度频次,组合权重为根据XGBoost的预测概率调整的仓位权重下的配置表现最佳,策略总收益达到272.30%,构建出最终的选股策略。该策略在现实领域有较大的应用价值;从理论价值来看,本研究比较了3种主要机器学习算法的优劣,为进一步的深入探究与比较不同算法提供了参考;本研究还开创性地构建了机器学习与动态选股相结合的混合选股策略并在证券市场运作良好,为相关量化投资策略的设计提供了可供参考的操作流程,基于随机森林模型的动态多因子选股策略的设计也具有一定的借鉴价值。
其他文献
当今世界正经历百年未有之大变局,我国发展面临的国内外环境发生了深刻复杂变化。自改革开放以来,尤其是在加入世界贸易组织之后,我国的经济发展取得了举世瞩目的成就,但一些发展不平衡不充分的突出问题没有得到根本解决。面对国际环境变化带来的新矛盾、新挑战,我们迫切需要通过科技创新重塑国际合作和竞争新优势的新格局。新发展格局有着新的发展基础、发展任务和发展环境,更是面临着新的问题和挑战——国民经济循环仍存在一
学位
近年来,我国坚持实施创新驱动战略,整体科技创新水平已得到明显提升,但与发达国家仍存在一定差距。企业研发是我国实现自主创新的发展目标以及推动经济高质量发展的重要引擎。因此,我国需要充分激发微观经济主体的研发潜力。企业的研发活动对于各种资源的消耗大,又兼具周期长、风险大、回报慢的特点,内部资金难以满足其需求,往往需要通过外部债务融资来满足其资金需求。然而,由于我国金融发展起步较晚,融资机制尚未健全,信
学位
创业板自2009年开板便吸引了多方关注,而创业板注册制的推出更是一石激起千层浪,吸引了众多关注。随着资本市场的愈发成熟,创业板在中国经济结构转型中取得了越来越多醒目的成就,但依旧逃避不开其存在的问题。在中国资本市场投资者结构的影响下,创业板也存在着部分交易者缺乏投资和金融知识与相关技巧,非理性交易行为较为明显。同时信息披露不够透明,监管措施不够完善,也导致投资者信心大幅受挫。同时投资者过度反应的效
学位
中小企业是中国经济转型发展过程中重要的动力源泉。由于商业银行是我国中小企业最主要的融资渠道,当中小企业面临较为严重的信贷融资约束时,会导致中小企业投资不足,制约了中小企业的长远发展,因此随着我国经济向高质量发展阶段转变,解决中小企业信贷融资约束问题已经成为了党和政府和各金融市场主体的工作重点之一。迅猛发展的金融科技为中小企业信贷融资问题创造了新的解决路径。中国人民银行提出要进一步增强金融体系运用科
学位
2021年,我国实现了全面建成小康社会这一百年奋斗目标,经济水平不断发展,生活水平不断改善,然而国内收入差距始终居高不下,过高的收入容易引发社会动荡,降低人民生活的幸福感与参与感。同时,党和人民对共同富裕、高质量发展的热切期望也使降低收入差距迫在眉睫。本文主要利用中国家庭追踪调查数据(CFPS)对我国收入不平等状况进行全面研究,分城乡揭示我国收入不平等的程度、分项收入和各影响因素对收入不平等的贡献
学位
目前我国高铁的发展格局已经逐渐从“四纵四横”阶段到了“八纵八横”阶段,高速网络的不断完善改变了我国交通运输的格局,缩短了不同区域之间往来的通行时间,使得不同地区之间的沟通交流更加密切。并且,高铁作为近些年来发展迅速且较为重要的基础设施,也在一定程度上为经济层面的发展带来了较为积极的正向影响,通过加强了沿线地区城市的交流联系进而促进了一些区域的经济发展。除了对于区域宏观层面的作用,作为微观经济活动的
学位
自套利定价理论(Ross,1976)及Fama-French三因子模型(Fama等,1993)以来,金融学界提出了非常多的因子模型,在这之中有定价因子也有非定价因子。Clarke在最近的研究中开发出一种方法,可以将定价因子与非定价因子隔离开来,从而在股票回报率中寻找到共同的定价因子;如此得到的因子模型在美国股票市场可以比肩甚至超过其他前沿因子模型的表现(Clarke,2022)。中国股市经过30多
学位
产业集聚作为推动区域经济发展的重要增长极,在提升区域经济竞争力的同时也是推进新型工业化的重要抓手。当前,我国各地正加快推进区域内产业集聚的形成及发展,涌现出一批具有发展特色的产业集群,为当地经济发展和转型升级注入新动力。无论是人民生活水平的保障与提升还是综合国力的壮大都离不开制造业整体实力的提升。当前,我国制造业正处于转型发展关键期,产业集聚在制造业结构调整及升级过程中发挥重要作用。相比于其他行业
学位
近年来,我国企业并购重组活动表现出异常活跃的态势,监管部门相继出台了激励企业进行兼并重组的政策,推动了上市公司出现新一波的兼并浪潮。传统金融理论假设金融市场为有效市场,广大投资者和公司管理层做决策时完全理性,不受任何因素影响。但往往现实中投资者及管理层存在非理性行为,在并购过程中也时常有资产评估溢价过高情况的发生。本文旨在探讨在我国企业并购与重组过程中,投资者情绪与资产评估溢价的影响。本论文的研究
学位
随着证券市场的发展与成熟,算法交易逐渐兴起与发展。算法交易将大额订单拆成若干合适的小额订单予以成交,降低投资者交易成本,减少对市场行情冲击并降低交易员手工误差。因此算法交易越来越受到机构投资者的关注,也逐渐成为金融学的研究热点。VWAP(成交量加权平均价格)策略作为最基本的算法交易策略,核心是通过对日内成交量分布进行预测从而得到更接近与VWAP的平均成交价,因此如何更精准地预测日内成交量分布便是提
学位