论文部分内容阅读
相比于国外成熟的金融市场,中国的金融市场还处于发展阶段。在中国的金融市场中进行投资时,获取有用且重要的相关信息对投资具有非常大的帮助。因此对金融网站上的那些股吧中的评论的研究具有非常重要的意义。由于如今的股票市场发展越来越快,对股票进行研究的人也越来越多,大家对各个股票的状况都有自己的看法。随着金融网站和相关论坛的发展,投资者们越来越倾向于在这些金融论坛上发表自己对个股的一些看法。现在很多投资者在选择个股投资时都会先去热门的金融网站上看个股的评论,掌握到相关的信息再进行投资。但是因为如今的互联网发展已经非常的迅速,网上的信息量已经过于庞大,使得投资者不这么容易地发现重要的信息。本文就是针对这一问题提出了基于股票评论的情感分析,对于大部分投资者来说,他们在投资股票时可能会更多的选择这些带有褒义评论较多的股票,而不会考虑去投资那些带有贬义评论较多的股票。本论文主要研究工作:(1)本论文实验数据的采集,通过使用Scrapy爬虫框架对股票论坛上的文本评论进行爬取。(2)对基于情感词典的股票评论文本的情感倾向性分析方法的研究。在传统的基于情感词典分析的基础上,对情感词典进行扩充,增加金融领域的一些词语,这样可以提高最终模型的准确率。然后还需构建否定词典和程度副词,最后按照一定的规则对整个评论进行情感倾向性的计算。(3)将股票评论文本的情感分析问题转化成为一个机器学习的分类问题,用机器学习的方法去解决文本情感分析问题。本论文主要的创新点有以下几点:(1)在基于情感词典的股票评论情感分析中,自建了金融领域的词典,与使用基础词典形成对比,通过实验对比,使用金融词典提高了情感分类的正确性。(2)因为在基于情感词典的情感分析方法中,有很大的工作都需要人工去完成,最终的情感分类效果很大程度上由情感词典的好坏来决定,利用机器学习的方法进行情感分析,不需要借助于情感词典,提高了很大的效率,且通过实验对比,正确性也提高了很多。