论文部分内容阅读
随着互联网技术的飞速发展,人们越来越习惯通过其获取自己所需的信息并发表自己观点。在金融领域,网络金融信息已成为金融信息一种新的重要表现形式。以股票市场为例,财经新闻、券商的在线投资报告、专家的在线股评、个人投资者参与互动的论坛、博客等每天都会实时产生大量与股票交易相关的信息。众所周知,这些信息里包含的评论、观点对股票市场有着影响;同时,股价的大幅波动也会影响网络金融信息的内容和情感。所以,网络金融信息与股票市场有着一定的关联关系。研究这种关联关系有助于提升投资者投资行为的科学性,也有助于为监管者提供决策依据。网络金融信息来源广泛、数据量巨大,且多为半结构化、非结构化数据,这给网络金融信息内容挖掘特别是情感分析增加了难度,也影响了分析其与市场关联性的准确性。基于此论文尝试通过搭建SparkR平台并研究相关的情感词选择和情感分类算法提高网络金融信息分析的准确性并进而实证分析了信息情感与市场的关联关系。论文首先定义了金融大数据分析框架,明确了分析思路;其次从信息量和信息情感两个方面分析网络金融信息情感的计算,定义了三种情感计算方法,尤其是给出了如何利用机器学习方式构建金融特征词词典;然后给出了网络金融信息获取、数据预处理、特征选择与情感计算所需技术并给予了其在SparkR平台上的分布式实现;最后从五个角度实证研究了网络金融信息与股市的关联关系,并对研究结果给出了详细的解释说明;最后,通过四组对比实验证明了论文方案的有效性。论文的研究为需求者如何快速获取所需网络金融信息,并分析其情感以及其与股票市场的关联关系提供参考。此外,论文通过对比新闻信息量、新闻情感信息量、新闻特征词强度与上证50指数的波动图也发现新闻情感信息量最能刻画网络金融信息与市场的关联关系,而为特征词加权很难显著提高刻画的准确度。