论文部分内容阅读
随着旅游领域及互联网的迅速发展,在网络中已经出现了大量的与旅游相关的个人评论。这些评论以不同的形式出现,比如:论坛、博客。更重要的是,这些评论中所含的信息对于游客和从业者都有很大的价值。然而,网络中海量信息的一个本质问题是信息超载,因为用户完全不可能去阅读所有有用的信息。因此,观点型问答将成为研究的热点。相对于客观性问题该问题更具有困难,它需要一个全面的、综合的、准确的答案,而文本情感倾向性分类具有解决这一问题的能力。 本文针对从互联网上下载的山西旅游评论进行了旅游评论文本情感分类的研究工作。本文的主要研究工作可以归纳为以下几个方面。 (1)将文本主题分类的方法应用于文本情感分类 本文采用了KNN、SVM、最大熵模型三种分类方法以及信息增益、互信息和x2统计三种特征选择方法,考察了不同的特征维数、特征选择方法和文本主题分类方法对文本情感分类结果的影响。实验结果表明,采用信息增益的特征选择方法和支持向量机分类方法,在选择适当数量特征的情况下,评论文本情感分类可取得较好的结果。 (2)基于规则的组块抽取方法 通过使用哈工大信息检索研究室的中文依存句法分析工具,研究了依存对之间的关系,并根据此关系提出了抽取名词、动词、形容词、副词组块的规则,通过实验表明,该方法抽取组块是可行的。 (3)基于多粒度的特征选择方法 针对文本情感倾向分类的特征选择问题,本文使用了词与组块组合的特征选择方法。其中,词是采用信息增益的特征选择方法,组块是根据规则抽取的,并采用分类效果较好的支持向量机对文本进行情感倾向分类。实验表明,这样的特征选择所得到的分类结果比较好。 (4)将本文的研究结果运用到山西旅游问答系统中的观点型问题答案抽取。系统根据用户的提问,返回相应景点的评论,并根据正面与反面评论给出一个综合评价。