基于函数型主成分得分的机器学习回归预测——以美国科技指数为例

来源 :东北财经大学 | 被引量 : 0次 | 上传用户:x360791581
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技高速发展和大数据时代的到来,记录和存储信息的成本降低,高频数据随之产生。相对于传统研究使用的低频数据来说,高频数据由于采集频率高从而能够获得更多数据信息,可以更加真实地反应数据的变化。股票价格是一种影响因素复杂多变、不稳定的时间序列数据。如何寻找合适的关键因子、建立模型、准确预测股票价格和趋势一直以来都是股票投资者和学者们最关注的问题。各国各界学者们针对这些问题进行了大量的研究,对于股票数据的预测一直处于不断优化的过程。高频股票数据可以挖掘更多影响股价的深层信息,为学者研究股票数据提供了更加有利的帮助。函数型数据分析方法是将观测到的离散数据看成一个潜在的未知函数,即数据是无限维空间的元素。离散观测点的个数越多,越能准确逼近这些数据背后隐藏的真实函数,因此函数型数据分析方法克服了传统统计模型无法捕捉数据之间动态变化这一缺点,利用函数型数据分析方法处理高频股票数据具有极大的优势。现有研究大多使用函数型主成分建立函数型线性模型以及进行函数型时间序列分析,以函数型主成分得分为特征,建立非函数型回归的研究较少。本文使用函数型主成分得分为特征,建立机器学习回归模型,分析预测股票数据。数据选取2018年至2021年美国科技股指时隔5分钟的高频数据,选取B样条函数作为基函数,将离散数据函数化,得到潜在函数。通过函数型主成分分析提取潜在函数的函数型主成分,实现变量降维,通过累计贡献率确定主成分个数,将特征函数对应的主成分得分连同历史股指开盘数据作为解释变量,结合机器学习回归形成新的混合回归模型,预测未来每日的股指开盘价。本文对股指数据采取了两种处理方式:差分和去除当日均值。针对两种不同的数据处理方式,考虑了常用于时间序列预测的自回归模型以及包括Lasso回归、支持向量机回归在内的六种机器学习回归模型,对模型进行了预测结果的对比分析。将预测结果的均方误差和平均绝对误差作为模型预测准确性的衡量标准,发现加入函数型主成分得分作为解释变量之后,六种回归模型的预测能力普遍提升,并且经过差分预处理股指数据的预测效果要优于去除每日均值预处理数据的预测效果。同时,函数型主成分提取的特征都是有效特征,逐渐增加函数型主成分特征提高了模型的预测精度,降低了均方误差。本文以函数型主成分得分作为特征,建立机器学习回归模型,能够较为准确地预测股指数据。
其他文献
学位
在人民日益增长的基本需要不断得以满足同时,中国的贫富差距也在不断扩大,数据显示,全国居民收入基尼系数由1998年的0.378上升到2020年的0.47,财富分配的不平等对居民幸福感的关系成为人们关注的焦点。党的二十大也从“增进民生福祉,提高人民生活品质”这一与人民群众幸福感相关的角度阐述了房地产发展方向,即“坚持房子是用来住的、不是用来炒的定位,加快建立多主体供给、多渠道保障、租购并举的住房制度”
学位
近十几年,期权定价已经成为金融衍生品定价研究领域的热点,著名的Black-Scholes期权定价公式的出现是期权定价的一个重要转折点,然而这样的定价方式假设条件理想化,不接近实际金融市场。随着金融市场分形结构的揭示,分形市场假说的建立,对非标准布朗运动驱使的随机过程下的期权定价问题尤为关注,这也是标准Black-Scholes公式改善的重要途径之一。继分数次和次分数布朗运动之后,近似分数布朗运动被
学位
亚组分析是处理异质性数据的常用方法,在临床试验和市场营销等很多领域中有着广泛的应用.制定个体化治疗策略的一个重要步骤是正确识别异质性人群的亚组,以便对每个亚组人群进行特定的治疗.在临床试验中,进行亚组分析用来评估一种治疗是否对生物标志物阳性或生物标志物阴性的患者有益,许多学者已经开发了试验设计来解释这些亚组.现有文献中考虑的是基于均值回归和中位数回归的亚组分析.与均值回归和中位数回归相比,众数回归
学位
在打破理财“刚兑”和房住不炒的藩篱后,证券投资基金产品无疑成为居民投资的重要选择,良好的基金行业发展将为我国共同富裕提供助力。然而与现代公司治理理论中存在的“委托-代理”问题相似的是,基金经理与基金投资者之间由于利益并不完全一致,基金经理基于自身利益最大化做出的投资决策并不一定符合基金投资者利益的需要,二者之间“委托-代理”的鸿沟仍然难以逾越。公募基金群体作为一类最重要的机构投资者,其业绩不仅与基
学位
2022年,我国陆续推出中证1000股指期权、中证500ETF期权、创业板ETF期权,标志着我国的期权市场一步步扩大,正在快速发展。期权产品作为全球最活跃的衍生品之一,广泛应用在对冲风险、投资标的创新以及资产配置等领域。因此,关于期权定价的研究随着我国期权市场的壮大也愈发凸显其重要性。近些年来成为研究和应用热点的深度学习,凭借其自身的优越性开始应用于各个领域,推动着各个领域的相关理论不断发展。而分
学位
ICT与数字经济密切相关,自动驾驶、轨道卫星、人工智能等ICT技术是数字经济发展的重点内容,在企业发展和国家产业升级中起到重要的推动作用。随着经济全球化进程加剧,全球贸易环境对一国经济发展的影响日益增强,而近年来在英国“脱欧”、中美贸易战、新冠疫情肺炎、美伊冲突、俄罗斯乌克兰战争等“黑天鹅”事件频发以及美国单边主义、保护主义等逆全球化浪潮下,全球经济政治环境愈发动荡,双边贸易、多边贸易关系逐渐松动
学位
在我国的资本市场中,证券投资基金占据重要地位,其投资行为直接关系到整个资本市场的发展。近几年,随着基金公司的数量快速增加,基金公司的规模随之扩大,基金公司旗下管理的基金数目不断增加,基金家族体系也在不断的发展壮大,基金家族行为越来越受到基金投资者的重视。基金家族为了使自身所获得的利润最大化,可能会采取利益输送行为,牺牲低绩效基金的利益去打造明星基金以提升高绩效基金的业绩,从而充分发挥明星基金的溢出
学位
报纸
企业展期风险是指企业由于短期内到期债务过多,无力偿还已到期债务,在对债务进行展期时产生损失的可能性:一是企业迫于流动性压力以较高成本借新还旧所产生的展期亏损;二是企业短期内到期债务过多,债权人拒绝对已到期债务进行展期从而直接导致债务违约的可能性。近年来,中国债券市场频繁爆出因债务集中到期而无法展期所引发的信用违约事件,展期风险已成为社会舆论和监管部门关注的焦点。债务展期是企业防范债务发生实质性违约
学位