论文部分内容阅读
随着互联网“草根主义”的蓬勃兴起,互联网用户逐渐由被动地接收互联网信息向主动地创造互联网信息发展,互联网上产生了大量的由用户发表的有价值的评论信息。如何从这些海量数据中便捷有效地挖掘出潜在用户感兴趣的评论要点,已成为目前亟待解决的问题之一。因此,观点挖掘技术应运而生,并迅速成为信息处理领域的一个研究热点。为了能够比较精细地刻画观点挖掘的结果,本文针对句子层面上的观点挖掘问题进行了研究,主要内容如下:(1)对第二届中文倾向性分析评测(COAE2009)中与观点相关的评测任务以及我们参与评测时使用的方法进行了概述,并对评测结果做了总体的分析,在分析的基础上概括出了观点的核心要素,定义了句子层面观点挖掘的主要目的与任务。(2)研究了汉语比较句的语义角色标注问题。利用汉语比较句的句法结构建立了原始的混合比较模板,并进一步对原始模板进行了泛化以提高其召回率;然后提出了一个二级标注算法分别标注比较实体和比较属性,最终实现了比较句的语义角色自动标注。实验表明,该方法是可行的。(3)对汉语比较句进行了观点挖掘研究。提出了比较观点的描述形式,该描述形式通过对不同类型的比较结果进行了标准化处理,为它们的进一步归纳与整合提供了依据,其次,对比较句的句式构造了比较模式,按其所提供的情感信息进行了分类。最后在语义角色标注的基础上,提出了基于比较模式的比较观点挖掘算法,并在真实语料上对算法的性能进行了验证。(4)建立了基于Web的汽车评论比较观点挖掘系统。该系统集汉语比较句的识别、语义角色标注与比较观点挖掘于一体。通过网络爬虫技术定时更新后台知识库,对评论文本进行断句、分词及词性标注等预处理之后,标注识别出的汉语比较句并进行比较观点挖掘,系统最终根据用户的选择,给出与某个汽车品牌或者汽车的某个属性相关的所有对比结果。