论文部分内容阅读
随着互联网技术和电子商务的迅猛发展,日益增长的在线产品评论已成为消费者购买决策、企业口碑宣传以及管理层监管市场所依赖的重要资源。因此,高效、自动化挖掘用户评论中产品及产品细节特征所持的态度倾向成为了情感分析领域的热点问题。然而,由于中文自然语言本身的复杂性和多样性,尤其是网络评论在表达形式上的非规范性,为情感分析的深入研究带来了许多困难和挑战。本文针对目前情感分析领域中存在的<特征-情感>意见组情感识别难题,研究领域情感本体构建的理论方法及实现算法,建立基于产品特征的情感空间模型,增强对评论文本的语义理解能力,以提对高产品特征及相关情感的识别能力、特征词和情感词的组合情感极性的判别能力。主要研究工作如下:1.研究并提出了一种领域情感本体的表示模型。所提出的本体模型将产品特征词和情感词作为本体概念节点,建立了三种语义关系,包括:产品与产品部件之间的部分关系(part of)、产品与产品属性之间的属性关系(attribute of),以及产品与其情感之间的关联关系(associated),有利于准确描述产品特征之间、产品特征与其情感之间的语义关系。2.在领域情感本体概念抽取工作中,主要研究了特征词和情感词搭配提取的方法以及特征词的同义概念聚类算法。首先将种子词集和程度副词作为情感线索,根据本文设计的词性模式匹配方法获取评论中的特征词和情感词;实验对37300条评论子句进行了匹配及提取,评估结果表明,本匹配方法在提取情感本体节点方面具有较好的准确率,并为意见组合情感极性的判别提供了重要基础。进一步研究设计概念特征词间的相似度计算方法,用于提取特征词语的共享概念,并将表达同义概念的词语进行聚合,进而形成领域情感本体中的概念节点。3.在领域情感本体语义关系的提取工作中,重点研究提取特征及其情感的语义信息,即研究特征词与情感词的组合情感极性的判别方法,用于消除部分情感词语的领域依赖性。实验基于评测语料数据,考虑了评论标签和否定词典,并采用统计的方法识别<特征-情感>意见组的情感极性,实验结果与传统的基于情感字计算词语情感极性的方法(Ku的方法)相比,不同数据集的平均准确率提高了19.50%。4.本文研究并构建了一个领域情感本体实例,即“笔记本”情感本体。为了更好的使用本体的先验情感知识,本文按照分析过程中的不同情况,制定了领域情感本体的节点匹配规则,并针对隐性特征的推理和识别设计了相应的算法。最后,分别基于“笔记本”情感本体和HowNet情感词典两种方法,在评测语料上进行了特征及其情感的识别和句子情感极性判断的实验和分析。实验结果表明,引入领域情感本体作为先验知识,可以有效消除情感词的领域依赖性,提高评论中隐性特征的识别准确率