论文部分内容阅读
股票市场由于其在国家以及人民群众中的特殊地位,很早就是人们想要研究的对象。而股票市场的内在波动形式与变化情况的预测一直是相关研究人员的重点研究内容。但是股票市场具有非线性、高噪声,多扰动的特点,想要对股票市场的未来运动轨迹做出预测并非易事。近年来随着信息传播速度的加快,人们获取信息的速度与途径相比以往都有了极大的提升。而伴随着着机器学习技术和相关统计学习技术、大数据技术的发展,研究者对股票特征的刻画也更加全面。由于对股票市场的认识大多是基于股票时序数据的股票多因子研究,目前随着计算机算力的提升,对大规模的股票数据处理成为了可能。但是以往对股票因子数据的研究多是基于基本面、技术面等结构化因子进行,而随着信息传递速度地加快,股票市场的情绪可以在一定程度上反映投资者的行为并影响其投资决策。同时伴随着非结构化数据对股票市场特征的刻画,股票多因子数据越来越庞大,股票因子数据是研究者对股票特征描述的结晶,其内涵的信息十分重要,但是由于股票市场的特殊性,高维数据在包含大量特征的同时也会带来较大的噪声,对高维的股票因子数据进行特征提取,有利于人们对股票市场做出正确判断。本文通过对非结构化数据的研究,以及对高维股票因子数据的处理,使得人们对股票市场的运动趋势有更好地研究,主要工作如下:
(1)在基于支持向量机的算法理论基础之上,通过细致的情感分析金融新闻,建立相关的特征词库,用特征词库作为特征空间的基准对股票市场的金融新闻进行情感分析。同时对特征词库中的特征词语赋予不同权重,研究了一种新的循环评估支持向量机模型,从不同的维度对金融新闻进行情感分析,并使用随机种子对语料集合进行随机分配并进行交叉验证。利用bootstrap对模型进行循环评估机来减轻过拟合的问题,从而实现利用金融新闻情感驱动对股票价格影响与预测的研究。同时与人工神经网络模型以及伯努利-朴素贝叶斯模型进行预测准确性、情感多维刻画、模拟交易等三方面的对比实验,论证了本文基于金融文本情感的股票波动预测研究模型具有较为优秀的预测效果,能够帮助投资者识别新闻的极性并获得更高的投资收益。
(2)在加入了非结构化数据对股票市场的刻画后,股票因子数据由于其非线性性,高维度性,在提取特征的同时也带来了较大的噪声。而为了保证对股票高维因子数据特性挖掘的有效性,使用降维特征选择方法带来了很好的效果。因此本文在对线性降维算法,非线形降维算法两个方面研究了主成分分析(PCA)、ISOMAP、局部线性嵌入(LLE)、LaplacianEigenmap等方法进行特征选择处理,结合了股票因子数据的特点,利用了特征处理广泛采用的分类模型人工神经网络ANN、支撑向量机SVM、朴素贝叶斯进行对比,同时结合各个降维算法在实验中的表现,采用了多重降维方法对高维股票因子数据进行特征提取,实验结果与预期符合地很好,通过收益图也到的佐证。
综上所述,本文就金融新闻情感驱动对股票价格波动趋势的影响进行研究,通过机器学习以及相关的算法对其进行分析。并在非结构化数据基础上,结合进行基本面和技术面等结构化数据进行股票因子高维数据的融合分析,将所提算法应用到实际的交易策略中,实验结果表现良好。
(1)在基于支持向量机的算法理论基础之上,通过细致的情感分析金融新闻,建立相关的特征词库,用特征词库作为特征空间的基准对股票市场的金融新闻进行情感分析。同时对特征词库中的特征词语赋予不同权重,研究了一种新的循环评估支持向量机模型,从不同的维度对金融新闻进行情感分析,并使用随机种子对语料集合进行随机分配并进行交叉验证。利用bootstrap对模型进行循环评估机来减轻过拟合的问题,从而实现利用金融新闻情感驱动对股票价格影响与预测的研究。同时与人工神经网络模型以及伯努利-朴素贝叶斯模型进行预测准确性、情感多维刻画、模拟交易等三方面的对比实验,论证了本文基于金融文本情感的股票波动预测研究模型具有较为优秀的预测效果,能够帮助投资者识别新闻的极性并获得更高的投资收益。
(2)在加入了非结构化数据对股票市场的刻画后,股票因子数据由于其非线性性,高维度性,在提取特征的同时也带来了较大的噪声。而为了保证对股票高维因子数据特性挖掘的有效性,使用降维特征选择方法带来了很好的效果。因此本文在对线性降维算法,非线形降维算法两个方面研究了主成分分析(PCA)、ISOMAP、局部线性嵌入(LLE)、LaplacianEigenmap等方法进行特征选择处理,结合了股票因子数据的特点,利用了特征处理广泛采用的分类模型人工神经网络ANN、支撑向量机SVM、朴素贝叶斯进行对比,同时结合各个降维算法在实验中的表现,采用了多重降维方法对高维股票因子数据进行特征提取,实验结果与预期符合地很好,通过收益图也到的佐证。
综上所述,本文就金融新闻情感驱动对股票价格波动趋势的影响进行研究,通过机器学习以及相关的算法对其进行分析。并在非结构化数据基础上,结合进行基本面和技术面等结构化数据进行股票因子高维数据的融合分析,将所提算法应用到实际的交易策略中,实验结果表现良好。