论文部分内容阅读
随着Web2.0的兴起,论坛、微博、贴吧等为人们提供了发表意见和观点的平台。大量评论出现在网络中,而比较句作为一种很有说服力的表达方式,在评论中常常被用来比较两个事物或更多事物,以表达人们对不同事物的偏爱程度。利用自然语言处理技术,从评论中识别比较句、抽取比较关系和挖掘比较观点的研究越来越受到大量学者的青睐。其研究成果可为商家对投放市场的同类产品进行比较分析提供数据资源,同时为普通消费者进行购买商品时提供决策支撑。本文分别对比较句识别、比较关系抽取和比较观点挖掘做了系统的研究,主要内容如下:(1)基于序列模式的汉语比较句识别利用序列模式挖掘算法可获取比较模式,为了提高挖掘算法的性能,本文根据汉语比较句特点对MS-PS算法进行改进,对比较句识别贡献较大的一些项名词和比较特征词设置较低的最小支持度,其余项的最小支持度取项支持度的倍数和1/N(N为序列集大小)中较大值。最后,将获取的序列模式直接匹配待识别的句子,在两个数据集上进行实验,结果表明本文所给出SeqPattMine方法是可行的。(2)基于汉语框架语义角色的比较句关系提取利用领域产品名表和属性表等资源,并结合比较句在语料中的现象,对比较特征词及比较结果词、比较实体和比较属性进行汉语框架语义角色标注,以便提取出比较关系。最后,在第四届中文倾向性分析评测(COAE2012)关于比较句任务2.2的测试集上进行了两个不同的实验,实验结果证明,本文提出的方法是有效的。(3)比较观点挖掘本文按照等比句、异比句、级比句、极比句四种类型的比较句,构造了四种不同的比较观点挖掘方法。在构造过程中,借鉴了直接表达观点句常采用的情感词和领域属性搭配的观点挖掘方法。在基于语义角色标注的比较实体和比较属性抽取实验中,选择与COAE2012任务2.2中的标准答案相互覆盖匹配的“比较实体和比较属性对”对应的句子集进行实验,结果表明了本文提出的方法是可取的,F值可达到70%以上。