论文部分内容阅读
随着网络技术的迅速发展,Internet已成为越来越多的人们表达自己观点的平台。很多商家通过网上大量的评论,了解用户对产品的意见或建议,以便改进产品的性能和售后服务。同时,消费者也可以利用网上的评论来指导消费行为。然而,网上每天都有大量的新评论出现,对这些评论,仅靠人工进行跟踪和分析显然是行不通的。近年来,人们开始关注并研究评论文本的主观意见的获取与倾向性判别。 针对产品评论,本文对评论中的产品特性进行了挖掘,提出了产品特性与情感词汇关联对的获取与倾向性判别方法,并将关联对的情感倾向用于句子的倾向性判定。主要有以下几方面的研究工作: 1)挖掘评论中的产品特性 根据产品特性所在的上下文信息,本文将产品特性相邻词的词性、产品特性在句中所处的位置以及产品特性在句中所形成的依存关系作为特征,采用决策树方法获得判断产品特性的规则。实验结果表明,这些规则用于产品特性识别任务是可行的。 2)基于最大熵模型与决策树的关联对自动获取 本文在确定了产品特性与情感词汇的基础上,选择词、词性、位置信息以及句子的依存信息作为最大熵模型的特征,构建了9种复合特征模板用于识别产品特性与情感词汇关联对。同时,利用决策树方法自动构造了用于识别关联对的规则。通过在多个数据集上的对比测试,实验结果表明,在数据集3上的最大熵模型得到了最佳的测试结果。 3)基于关联对的句子倾向性分析 关联对的情感倾向在一定程度上影响了句子的情感倾向,本文首先采用规则方法对关联对的情感倾向进行了判别。然后,利用关联对的情感倾向对整个句子的情感倾向做判断。实验结果表明,基于关联对的句子情感倾向判别是可行的,与传统的支持向量机分类方法相比,关联对判断反面评论句子的情感倾向的F值优于支持向量机分类方法。