论文部分内容阅读
近年来,随着电子商务的迅猛发展,互联网中出现了大量的产品评价文本。人们开始寻求通过自动的方法在这些海量的主观文本中抽取出有价值的信息,于是情感分析研究应运而生。作为情感分析的一个重要的子任务,细粒度的情感分析,如评价发出者和评价对象的识别,由于可以获得用户评价的精细化信息,因此越来越受到研究者的关注。目前细粒度情感分析研究中,基于模板和规则的方法来抽取细粒度要素的方法是其中的一种主要途径,然而这种方法存在灵活性弱,扩展性差,召回率低等缺点。另一种主要途径是将细粒度情感要素的抽取视为序列标注问题,采用基于随机条件场、隐马尔可夫模型等序列标注方法来抽取特定的情感要素,但是这些方法无法很好地处理评价文本中大量存在的评价元素之间的长距离依赖,这也降低细粒度情感分析性能上提升的空间。围绕着对产品评价文本细粒度情感分析任务,本课题进行了一系列系统化的工作。第一,提出了面向产品评价文本的细粒度情感标注体系。该体系使用领域本体的形式组织和表示产品的相关概念节点。依据该体系,对1000短篇相机的产品评论文本进行了标注,建立了一套高质量、细颗度情感分析语料(CUHIT Opinmine)。第二、文本提出了一种使用基于依存句法树结构的条件随机场模型对评价对象与评价描述进行结合抽取的方法,该模型改善了线性条件随机场在标注细粒度情感要素时无法适应情感要素长距离语义依赖的问题,使用树边特征表达了细粒度要素中的句法相关性。在CUHIT Opinmine语料库与COAE2011任务三数据集对该模型分别进行了实验和评估。最后,为了进一步提高产品评价的评价对象的识别效果,本文提出了一种基于半监督的学习本体节点新实例的方法来处理产品评价文本出现的词典未登入领域专有词。实验中将该方法的输出结果构建为一套单独特征集提供给细粒度情感分析模型使用。本课题的贡献如下:一方面,标注的一套产品评价细粒度语料为后续的情感分析提供数据支持;另一方面,提出的使用基于依存句法树结构的条件随机场模型的方法性能更优,验证了使用树边能更好的表示评价文本的语义的相关性的推断;最后,课题提出了加强产品评价细粒度情感分析中对词典未登入领域专有词的识别方法,实验证明该方法能显著提高评价对象识别的召回率。