基于Boosting_FM的多因子量化选股模型

来源 :重庆大学 | 被引量 : 0次 | 上传用户:gideonkim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,基于一些数学与统计方法的研究带动了很多产业的发展,量化投资就是之一,其是将一些定量的方法应用到传统的金融股票市场,借助计算机强大的计算能力和一些算法的超强学习能力来辅助投资者做出投资决策,为投资者规避风险、获得超额收益。量化选股是量化投资的具体形式之一,其比较重要的两部分是如何量化(即构建因子)和如何选股(即选择哪几支股票),本文主要关注如何选股。对于因子构建环节,考虑到因子的短暂有效特征与在选股部分所建每一期模型也会对因子进行筛选和替换,所以本文采取了现有研究中比较有效的36个因子。在选股部分,本文创造性地将常用于推荐系统的因子分解机模型(FM)引入了量化选股之中,构建了基于Boosting_FM的模型,即先采取Boosting对因子特征进行筛选,再将所得特征进行one-hot编码,进而输入后续的FM模型。从而可以借助Boosting模型在特征筛选上的优点与FM在处理高维稀疏数据的能力,对股票数据进行建模预测。在模型回测部分,通过将Boosting_FM与其本身的Boosting模型进行风险收益、分类性能比较发现,Boosting_FM模型比单独的Boosting模型效果更好;同时,对比其他模型,如Boosting_lr,Boosting_FM也展现了比较可观的效果。在实证方面,经过对模型优化,最终采取240天作为滚动周期,60天作为调仓周期,5支股票作为持股数目,以2015年01月01日到2020年12月31日作为回测周期。数值结果显示,在历史数据上,基于Boosting_FM的模型获得的累计收益率是227.4%,年化收益率是22.47%,夏普比率是59.40%,最大回撤为44.36%,波动率为31.10%,对比选取的基准即中证500,可以发现构造的Boosting_FM远远超过大盘指数,充分证明了策略的实用性。
其他文献
随着技术日异月新的发展,“大数据”时代已经逐渐来临。对于保险公司来说,如果能够利用数据挖掘技术在海量的目标客户中寻找到高价值客户,将会对公司的业务发展产生重大意义。一般来说,在海量的目标客户中,有价值的客户远少于没有价值的客户,此时客户数据集是类不平衡的。那么如何从不平衡的目标客户中寻找出高价值客户对保险公司来说已经成为了重要的问题,解决好这个问题不仅可以转变保险公司传统的营销模式来提高业绩,而且
学位
流行性感冒,简称流感,是一种传染性强、传播速度快的急性传染病,给世界各国和地区造成了极大的健康威胁和损害。因此,科学有效的进行流感防治具有重大现实意义。在流感防治工作中,准确的预测其发病趋势是极其重要的一环。随着预测理论及预测技术的发展与完善,越来越多的统计理论、预测方法及统计模型被应用于传染病的预警。但是,对某一单一因素的分析无法全面把握传染病的流行特征及规律,考虑到历史数据具有的趋势性与新兴网
学位
缓解城乡收入差距与环境污染成为中国转型时期的两大主题,收入不平等一直是世界各国政府关注的主要问题。根据国家统计局和世界银行数据库的数据,2017年我国基尼系数为0.467,已超过0.4的国际警戒线。与此同时,随着人们环保意识的不断提升,环境问题已经成为政府与公众的关注热点,第十九次全国人民代表大会和2018年3月召开的两会对如何促进收入分配公平给予了特别关注,不同于以往会议,当下重点关注的是如何结
学位
在2019年与2020年之交,流行性传染病新型冠状病毒肺炎的爆发给人民生产生活带来了前所未有的挑战,也是对中国政府治理能力特别是数字治理能力的一场大考。值得骄傲的是,中国政府采取迅速行动,团结带领全国人民参与这场防控保卫战,并取得了显著的政策性成果。而这些政策性成果与政府对民众诉求的识别和回应密切相关。目前关于新型冠状病毒肺炎相关舆情文本分析大多使用社交媒体数据和新闻报道数据,缺乏对公共舆论更深层
学位
随着我国金融体系不断健全,居民家庭对金融市场的认知水平不断攀升,但目前我国家庭依然存在着金融资产配置单一、投资组合盈利不足的现状。探究移动支付对城镇家庭金融资产配置的影响有利于在当今互联网金融快速发展的时代背景下,引导我国居民家庭金融投资决策向更加理性化、多元化的方向发展。本文采用2017年中国家庭金融调查(CHFS)数据,结合2017年北京大学数字普惠金融指数数据,通过对比简单线性回归、分位数回
学位
随着我国经济迅猛发展,市场上出现了各种各样的借贷方法,提前消费的观念已经深入人心。然而由于信贷市场尚未健全,客户违约现象屡见不鲜,这严重影响了我国信贷行业的发展。因此本文针对信用卡逾期预测展开研究,希望可以以此来促进信用卡市场的健康发展。在评估个人信用区分持卡人是好客户还是坏客户时,主要是考察信用卡客户未来可能违约还是不违约,因此可以将这类问题当成分类问题进行研究。而研究的自变量就是客户的历史信用
学位
随着中国经济不断发展,民生水平不断提高,进入二十一世纪以来,汽车市场日益繁荣,新车保有量不断提高,国民从消费观念上也渐渐接受二手车,二手车市场稳中有进。截止2019年底,我国二手车交易量高达1492.28万辆,二手车价值评估和预测业务不断发展,对推动二手车市场价格合理化、交易公平化起着重要作用。然而,二手车价值评估和预测业务仍处于初步阶段,无法满足现有庞大的交易市场,缺乏推动市场良性发展的科学性力
学位
多因子量化选股一直以来是个研究热点,机器学习和大数据的兴起为多因子量化选股带来了更多研究方向。股市是在不断地变化发展的,尽管众多机器学习算法都能够在股市上表现不错,甚至获得超额收益,但具体来说,哪种指标在量化选股中会更具有代表性,众多因子在机器学习模型中是否能够真实有效地捕捉股市信息,以及过多的因子特征在模型中是否会彼此干扰降低机器学习模型的性能,对这类问题的探讨仍然是具有现实意义的。这也是本文研
学位
随着社会发展科技进步,人类日益增长的物质需求与稀有自然资源之间的矛盾变得更加强烈。农业发展也不再以解决温饱问题为目标,改革开放以后农业飞速发展带来的弊端日益凸显,农业环境污染问题越来越严重。农业生态系统的失衡必然会制约农业的发展。安徽省农业快速发展的过程中,由于农药、化肥等的过度使用,造成了土壤污染,引发了一系列粮食安全问题。粮食安全问题成为各国关注的焦点,实现农业的绿色可持续发展至关重要。农业生
学位
随着生物医学领域和医疗保健领域数据的迅猛增长,大量的数据挖掘技术与机器学习方法已被广泛应用于医学领域。然而,由于医疗数据具有冗余性、复杂性、不完整性等特点,分析的准确性会受到一定影响。除此之外,对于不同地区,某些疾病往往会存在不同的区域性特点,这也会削弱模型对疾病的预测能力。与此同时,脂肪肝作为一种目前世界上最为常见的肝病,如何通过数据挖掘技术辅助进行防治工作无疑是一个有价值的研究领域。本文采用了
学位