论文部分内容阅读
基于文本数据的混频预测模型是本文提出的新模型,是指模型中存在非结构化文本数据时,自变量之间时间统计频率一致(同频)或者时间统计频率不一致(混频)的情形。目的在于解决目前大数据时代下管理预测研究中不断受到重视的新颖问题,即预测研究中同时存在非结构化文本数据和混频数据的问题。随着移动互联网、云计算等信息技术的快速发展,数据采集的类型种类丰富,获取成本和传输成本也在不断降低,并且数据的形式不仅是时间统计频率不一致的问题,也存在获得样本信息是文本类数据形式。在实际背景中往往会出现影响预测结果的因素既是混频数据也是文本数据的形式,如在金融市场中,影响市场月度波动率会受到日度和周度交易信息以及月度宏观信息的影响;其次,也会受到文本数据的影响,其中新闻、公司财务公告、论坛帖子等非结构化数据,其本身可以进一步洞察市场中的趋势和情绪波动,因此如何充分利用数据类型不一致问题以及时间统计频率不一致问题是目前企业和研究者亟待解决的挑战之一。总结目前混频问题研究依旧存在以下提升的空间:⑴由于信息获取渠道的不一致,通常存在非结构化文本数据的出现,导致现有混频模型无法利用文本信息对预测对象进行研究。⑵在已有对一元自变量混频预测问题进行研究时,还未充分挖掘当因变量和自变量数据维度不匹配时存在的非线性复杂关系。⑶相应地,在针对多元混频预测模型进行研究时,随着文本数据的出现,多元自变量和因变量之间出现的混频关系更加复杂,以及多元自变量之间也同时存在时间统计频率不一致的情形,这导致已有模型的处理存在局限。因此,鉴于语义向量模型更能还原语义信息、MIDAS模型为处理混频提供了新的视角、长短时记忆网络能有效解决时序数据的多种非线性设定问题,本文尝试集成三种理论的优势,聚焦于带有文本数据的混频预测模型及其应用研究,解决预测研究中同时存在变量之间时间统计频率不一致和非结构化文本特征的问题。本文主要工作从以下三个方面论述:第一,构建一元混频长短时记忆网络预测模型。在目前的管理实践和经济预测问题中,数据之间存在大量的时间统计频率不一致的混频问题。已有的混频MIDAS模型在分布滞后的模型基础上使用多项式函数直接对高频数据进行加总平均,解决了人为主观处理混频数据的信息丢失。但已有模型随着变量之间的非线性特征越来越显著,使得预测结果存在较大偏差。针对以上不足,通过引入长短时记忆网络理论,结合混频数据抽样模型的思想,构建了一元混频长短时记忆网络预测模型。该模型将MIDAS模型和长短时记忆网络进行集成,并给出参数优化和求解过程。最后运用于股票市场波动率进行实证分析,根据检验标准发现,与已有的一元MIDAS系列模型相比,本文模型具备一定的可行性。第二,在上一步研究基础上,本文构建出基于文本数据的同频多元混频预测模型。如何充分利用带有文本的混频数据进行预测是目前研究者关注的重点,也更加符合实际需求。已有的混频预测模型往往基于结构化数据,而新闻等文本数据往往是非结构化数据,如何准确高效地提取文本信息并考察其对应的预测能力成为重要问题。因此,为解决上述问题,本文基于MIDAS的思想,融合长短时记忆网络和语义向量模型,构建出基于文本数据的同频多元混频预测模型。在此模型中,多个自变量之间的时间统计频率是一致的,同时自变量中存在文本数据,但自变量和因变量之间是混频关系。最后将该模型应用于不同市场的股指波动率进行预测,和基于数值型结构化的混频预测模型进行对比,证明了该模型的适用性和优越性。第三、在前两个工作的基础上,本文最终构建基于文本数据的混频多元混频数据预测模型,这也是本文最大的创新点。基于文本数据的混频多元混频预测模型是预测领域现实存在的问题,有一定的现实意义和理论价值,但国内外研究集中解决该问题的研究较少。在上一个工作的内容中,基本文本数据的混频预测模型的自变量之间为同频数据。但在实际管理预测问题中,可获得的数据类型也越来越丰富,不仅变量之中存在文本数据,还有自变量之间存在混频现象。现有的多元混频MIDAS模型无法直接解决自变量间频率不一致,同时自变量中存在文本信息的情况。因此,本文最终构建基于文本数据的混频多元混频预测模型,并将该模型运用于股票市场股指波动率预测研究中,实验对比表明该模型的有效性。该模型适用于自变量中存在文本数据和多个自变量之间存在混频情况,在一定程度上填补了混频预测模型的研究范围,具有较高的创新性和实践意义。