论文部分内容阅读
情感分析,又称为观点挖掘,近些年来作为研究热点被广泛应用于公众观点识别、产品评论摘要等诸多需要自动获取人们的观点与情感的应用场景中。情感分析不仅可以帮助消费者做出明智的购买决策,还可以帮助企业理解客户和公众对其产品与服务的评价。在情感分析研究领域,观点词与评价对象抽取是其中的一项基础任务。评价对象是评论的主体,是观点所表达的对象,观点词是用于表达情感倾向的词语。观点词与评价对象组成的情感搭配(评价搭配)对于情感分析的上层任务有更多的支持作用。 本文以观点词与评价对象抽取任务为主要研究内容,将现有的抽取方法总结归纳为自启动扩展抽取框架与流水线处理抽取框架。通过对现有抽取方法进行分析,发现主要存在以下问题与挑战:第一,错误传递问题;第二,多种类型的观点词发现问题;第三,长尾低频评价对象发现问题。针对现存的若干问题,本文对抽取框架进行了重新设计,特别关注情感搭配识别的处理,主要研究工作如下: (1)提出了观点词与评价对象的扩展提纯抽取框架。该框架通过迭代扩展过程中识别情感搭配关系来抽取新的观点词与评价对象,并增加了抽取结果筛选和抽取规则修正步骤,以缓解迭代过程中错误传递问题。 (2)提出了基于句法模板的情感搭配发现方法。在扩展提纯抽取框架的基础上,利用依存句法分析方法,定义了句法模板来描述情感搭配关系,通过自动句法模板获取达到发现潜在观点词与评价对象搭配,以解决多种类型的结果发现问题。 (3)提出了句法模板泛化与基于图结构节点权重排序的抽取结果提纯方法。句法模板泛化和模糊匹配处理是对自动获取的句法模板实例的提纯过程,提高了情感搭配的识别能力。同时,基于图结构节点权重排序方法可以对抽取结果进行有效的筛选提纯,减少结果对频次的依赖,以改善长尾抽取结果发现问题。 综上所述,本文以情感分析中的观点词与评价对象抽取任务为主要研究内容,面向解决现有方法存在的若干问题,提出了新型的扩展提纯抽取框架,并以此为基础设计了改进的情感搭配发现与结果提纯处理方法。通过真实的语料数据集上进行横向对比实验,本文所提出的方法在观点词与评价对象抽取任务中均取了得最佳效果,实验结果显示较传统的自启动扩展方法与流水线处理方法在F值上分别有平均10%和7%的提升,验证了所提出方法的有效性和优越性。