基于股票评论的情感分析与研究

来源 :成都理工大学 | 被引量 : 3次 | 上传用户:kuibugo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相比于国外成熟的金融市场,中国的金融市场还处于发展阶段。在中国的金融市场中进行投资时,获取有用且重要的相关信息对投资具有非常大的帮助。因此对金融网站上的那些股吧中的评论的研究具有非常重要的意义。由于如今的股票市场发展越来越快,对股票进行研究的人也越来越多,大家对各个股票的状况都有自己的看法。随着金融网站和相关论坛的发展,投资者们越来越倾向于在这些金融论坛上发表自己对个股的一些看法。现在很多投资者在选择个股投资时都会先去热门的金融网站上看个股的评论,掌握到相关的信息再进行投资。但是因为如今的互联网发展已经非常的迅速,网上的信息量已经过于庞大,使得投资者不这么容易地发现重要的信息。本文就是针对这一问题提出了基于股票评论的情感分析,对于大部分投资者来说,他们在投资股票时可能会更多的选择这些带有褒义评论较多的股票,而不会考虑去投资那些带有贬义评论较多的股票。本论文主要研究工作:(1)本论文实验数据的采集,通过使用Scrapy爬虫框架对股票论坛上的文本评论进行爬取。(2)对基于情感词典的股票评论文本的情感倾向性分析方法的研究。在传统的基于情感词典分析的基础上,对情感词典进行扩充,增加金融领域的一些词语,这样可以提高最终模型的准确率。然后还需构建否定词典和程度副词,最后按照一定的规则对整个评论进行情感倾向性的计算。(3)将股票评论文本的情感分析问题转化成为一个机器学习的分类问题,用机器学习的方法去解决文本情感分析问题。本论文主要的创新点有以下几点:(1)在基于情感词典的股票评论情感分析中,自建了金融领域的词典,与使用基础词典形成对比,通过实验对比,使用金融词典提高了情感分类的正确性。(2)因为在基于情感词典的情感分析方法中,有很大的工作都需要人工去完成,最终的情感分类效果很大程度上由情感词典的好坏来决定,利用机器学习的方法进行情感分析,不需要借助于情感词典,提高了很大的效率,且通过实验对比,正确性也提高了很多。
其他文献
浙江跨境电商发展一直走在全国前列。为抓住新一轮经济全球化、对外开放新机遇,抢占发展制高点,2013年底杭州市提出了发展跨境电子商务、建立"中国(杭州)网上自由贸易试验区"的战
要写好想象类作文,在探究性学习方面主要应具备三点构思技巧:一是构思要源于现实,探究也不是盲目的;二是构思的角度要灵活,探究应该具有开拓性;三是构思要有深刻主题,探究主题
目的:研究提高医院应对突发公共卫生事件能力的对策。方法:查阅文献资料,掌握医院应急能力建设的研究成果。通过实地调研,剖析医院应急能力建设现状。结果:基于文献分析和实地调研
疾病是制约人工养麝业健康发展的重要因素之一,为进一步开展圈养麝的疾病研究与防治工作,笔者通过查阅国内外相关文献对危害圈养麝群发性疾病(化脓、肺炎、胃肠炎、异食症、尿
本文阐述了浙江茶叶产业的现状,分析了目前存在的问题;提出了相应对策。
"降维"是多元统计分析中对具有相关性和重叠性信息原始变量进行简化的一种方法,降维后的抽象变量能够保留众多原始变量的主要信息。通过将降维的思想扩展到多变量综合评价技术,
前列腺结石指原发于前列腺管和腺泡内的结石,又称“真性结石”。其发生与慢性前列腺炎、前列腺腺液潴留、腺管狭窄、代谢紊乱等因素有关。多数前列腺结石者本身无特殊症状,部分
指定信源域间组播(SSM)主要是为了解决域间组播地址变化问题而提出的,它有效地解决了ASM域间组播路由的复杂性,并且有更好的会话完整性和安全性,但仍然面临严重的状态可伸缩
初级产量比较试验中,某组合的株高与相邻组合株高存在明显差异时,会对其初比产量产生较大影响,初级产量比较试验不能客观地反映该组合的真实产量水平。以8个玉米组合为试验材
马铃薯是人类日常饮食中的一种常见食物,可以与许多种蔬菜进行搭配,研发高产栽培技术,提高马铃薯产量,是满足人类基本需求的必要条件。在农业种植技术水平不断提高的21世纪下