论文部分内容阅读
随着经济的发展,人们对旅游的需求不断增加,使得在线旅游消费市场呈爆发式的增长。因此,以携程网、去哪儿网等为代表的旅游OTA网站积累了海量的用户的评论文本数据。如何从这些大量的文本数据中获取有用的信息以提高用户体验成为亟需解决的问题。本文针对OTA网站评论文本数据进行了情感分析研究。具体工作如下:首先,本文通过网络爬虫技术抓取了一定量旅游OTA网站的评论文本数据作为研究对象并构建了相应的分类词库以及情感词库。由于旅游OTA网站评论文本的特殊性,目前的一些开源的情感词库不能十分有效的匹配该类评论文本数据,而且主流的情感词库大部分是二分类的情感判别,无法体现用户具体的情感倾向程度;也不能将用户的情感倾向按评价要素细分或者按用户偏好个性化获取情感倾向程度。基于此本文针对该类评论文本数据重新构建了专有的按评价要素细分的分类词库以及情感词库。从而能够更有效地获得用户的情感倾向值。同时也是本文模型构建中不可或缺的一部分。其次,本文提出一种基于LSA(潜在语义分析)与DBN(深度信念网络)的深度学习模型。由于传统的基于文本向量空间所构建的文本特征矩阵仅仅体现了文本信息中词频的信息,而未能包含词语于词语之间潜藏的语义信息(如:一词多义或一义多词等)所以在模型拟合过程中其效果往往有所欠缺。因此,本文运用LSA方法将原始的文本特征矩阵进行SVD分解,再通过合理的选取分解后奇异值的个数重构文本特征矩阵。最后,基于重构后的文本特征矩阵构建了DBN的深度学习模型以期通过对文本数据的训练学习能够有效地获得文本的情感倾向值。最后,本文还设计了六组数据与模型的对比实验以验证模型的有效性。从最终各个模型十折交叉验证的总体对比结果来看,本文构建的基于LSA(潜在语义分析)与DBN(深度信念网络)的深度学习模型具有较好的性能。