基于正则稀疏化的特征交互量化选股策略

来源 :上海工程技术大学 | 被引量 : 0次 | 上传用户:SnailHou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,导致数据量和数据维度急剧地增长。弹性网(Elastic Net)能够有效地对特征进行选择。但ElasticNet惩罚中的L1范数不满足Oracle性质的无偏性的性质,且在筛选特征时仅考虑特征之间的相关性而忽略了特征之间的相互作用。本文针对ElasticNet惩罚的缺陷,进行了如下研究:(1)针对L1范数不满足无偏性的问题,本文将逻辑回归弹性网(LR-ElasticNet)中的L1惩罚项替换为光滑切片绝对偏差(SCAD)惩罚函数和最小最大凹度(MCP)惩罚函数,分别构建LR-SCAD和LR-MCP模型,有效解决了 ElasticNet惩罚的无偏性问题。(2)针对ElasticNet在筛选特征时忽略特征交互的问题,本文提出一种信息熵-逻辑回归弹性网模型(IE-LR-ElasticNet),通过加入信息熵的惩罚项来衡量特征之间的交互作用。(3)在上面两部分的基础上,本文将信息熵惩罚加入LR-SCAD和LR-MCP模型,在筛选特征时既考虑特征之间的相关性,也考虑了特征之间的交互作用,构建IE-LR-SCAD和IE-LR-MCP模型,并利用交替方向乘子法(ADMM)进行求解。由此构建 LR-ElasticNet、LR-SCAD、LR-MCP、IE-LR-ElasticNet、IE-LR-SCAD和IE-LR-MCP六大模型。为探究在不同数据结构下,六种模型在特征选择、估计系数结果以及模型预测准确性方面的优劣,在不同维度和不同相关性系数上设计仿真模拟实验,得出LR-SCAD、LR-MCP较LR-ElasticNet模型能较好的保留重要的特征,系数估计结果及模型的准确率也更优,同时在多特征、高相关性数据集上,信息熵惩罚函数能够很好的衡量特征间的交互作用关系。最后,利用沪深300指数成分股数据分别构建LR-ElasticNet、LR-SCAD、LR-MCP、IE-LR-ElasticNet、IE-LR-SCAD 和 IE-LR-MCP 量化投资策略。经实证检验,本文提出的基于正则稀疏化的特征交互量化选股策略,年化收益率最高达到47.88%。
其他文献
多年来快速的人口和经济社会发展,给长三角地区资源环境承载造成了相当大的压力,为实现更高质量的长三角一体化提出了严峻的挑战。面对这一现状,须完善配套经济社会与资源生态环境平衡发展机制,倡导生态文明建设。生态文明建设是长三角一体化发展战略的重要组成部分,欲找准生态文明建设的切入点,必须对生态文明建设水平进行科学客观的评价。针对长三角城市群生态文明建设评价问题,基于复合生态系统理论,构建长三角城市群生态
学位
随着化石能源的日益衰竭和环境污染的愈加严重,开发新型可持续的绿色清洁能源迫在眉睫。超级电容器在能源储存和转换方面有着突出的表现。众所周知,电极材料在影响超级电容器性能方面。其中,具有多孔结构的氮掺杂碳纳米纤维表现出优异的电化学性能。因此,本论文制备含羟基聚酰胺酸作为聚合物前驱体溶液,通过静电纺丝和碳化处理制备碳纳米纤维,利用含羟基聚酰亚胺发生热重排反应会原位生成多孔结构的特点,制备出具有着多孔结构
学位
SVM是一个统计学习算法,主要是利用结构风险最小化原理对数据分类。该算法可以利用核函数将不可分数据映射到高维空间中,解决VC维问题。目前,基于SVM的研究数不胜数,改进的SVM算法有FSVM、TWSVM和FTWSVM等算法。这些算法在原始SVM算法的基础上,不仅提高了对数据预测的正确率,而且加快了计算效率。本文主要针对TWSVM算法进行改进,并将改进的算法应用到量化投资中。首先,为了探究TWSVM
学位
目前,我国的经济飞速的发展,企业的规模逐渐扩大,其经营模式较以往有很大的区别。在现阶段企业的经营过程中,应不断加强员工的思想政治工作建设,通过强化员工的思想政治意识,提高企业的发展水平。当下,企业办公室政工人员需要以身作则,加强自身的专业素养,为企业政工工作发挥最大的作用。本文深入探讨新时代办公室政工人员的素养状况,找出其中存在的问题,并提出具体的建议,以期能够提高办公室政工人员的素养水平。
期刊
随着网络时代的快速发展,越来越多的用户会选择在互联网上进行购物、点餐、打车等日常活动,这些日常活动会产生大量的数据痕迹,包括身份信息、个人喜好等,这些个人信息不断汇聚就会形成庞大的数据群。面对海量的数据,如何能实现数据的智能化处理,从中挖掘与利用蕴含的信息来辅助公司决策,增加公司的收益,已成为目前理论和应用的研究热点。分类算法是一种基础的数据处理方法,被广泛应用于数据的智能化处理。传统分类方法的前
学位
德育工作是一项系统性工程,融学校管理、示范引领、课堂教学、自主管理为一体。三门技师学院结合新时代技工院校德育的要求和学生的特点,切实发挥政府、企业、学院、家庭的共育共培作用,联动校内外资源,通过抓思政教育、劳动教育和警示教育的红蓝黄“三色德育”,全方位构建学生德育的有效闭环管理模式,实现从被动到主动、形式到内容、外化到内化的转变,取得了很好的实践经验。
期刊
<正>近期,门诊迎来暑期就诊高峰期,期间遇到诸多家长带着问题前来咨询,如“角膜塑形镜(简称‘OK镜’)想要实现大一点的离焦量需要‘过矫’吗?”“‘过矫’多少效果更好?”“‘过矫’会产生不良影响吗?”就此专业问题,笔者进行如下科普分享。1 “过矫”的定义通俗来讲,“过矫”指在配镜过程中给出的度数比实际度数高,会让视物的焦点落在视网膜后。如检查结果为-2.00D,但给予验配-2.50D的眼镜,即为“过
期刊
报纸
随着智能化设备的发展,包括数码相机、智能手机以及可穿戴传感器的使用,促进了多媒体信息的传播,特别是数字图像作为媒介载体广泛应用于司法调查、军事、政治外交以及社交等领域,其中Photoshop、美图秀秀等图像编辑软件增加了图像篡改的便利性,使得“眼见为实”的观念正悄然改变,图像篡改取证研究受到了人们的广泛关注,图像篡改取证即鉴定数字图像的真实性和完整性。传统的篡改取证方法主要依据篡改过程中遗留的伪造
学位
近年来,随着科技互联网的快速发展,数据研究对人们的生活变得越发重要。在很多领域,例如信用评估、疾病预测和金融大数据等,存在大量的不平衡数据。不平衡数据是指数据集中某一类的样本比其他类的样本多,就会出现类别不平衡。将样本数量多的类称为多数类(负类样本),样本数量少的类称为少数类(正类样本)。若对不平衡数据集进行错误的分类划分或少数类群体被错误地认为是多数类群体时,数据使用个体通常会付出更大的代价。因
学位