论文部分内容阅读
近年来,随着博客、电子商务、社交网站与微博等信息平台的兴起,主观性文本的信息量迅速膨胀。为了自动分析这些主观性文本包含的观点与态度,情感分类(Sentiment Classification)研究获得自然语言处理领域的研究者们密切关注并得到了迅猛发展。情感分类旨在对主观性文本按照其表达的感情色彩(例如:褒义或者贬义)进行自动分类。情绪(Emotion)是指人内在的心理反应与感受。情绪知识具体是指描述情绪的相关知识(例如:情绪词)。相对于普通情感知识来说,情绪知识在表达情感方面具有如下特点和优势:(1)牵涉到的关键词范围较小;(2)具有的情感色彩强烈;(3)情感表达领域较独立。因此,本文借助情绪知识帮助提高情感分类性能,主要研究内容和创新点包括以下几个方面:首先,本文提出了一种结合情绪词和非标注样本的情感分类方法。核心思想是借助于情绪词从未标注语料中抽取高正确率的自动标注样本,并通过半监督学习的方法进行情感分类。实验证明,该方法能够在不同领域内获得较好的分类结果。其次,本文提出了一种基于情绪词与情感词协作学习的情感分类方法。在基于文档-单词二部图的标签传播算法框架下,使用情绪词与情感词构建两个视图,通过协作学习的方法从未标注数据中获取高正确率的自动标注样本作为训练数据。此训练数据用于后续的情感分类训练。实验表明,该方法在多个领域有效提高了分类效果。最后,本文提出了一种基于情绪词的领域适应情感分类方法。针对文本情感分类研究中普遍存在的领域适应问题,使用情绪词在目标领域的未标注数据中抽取高正确率的自动标注样本,并同源领域的标注语料相混合作为已标注样本。在基于二部图的标签传播算法框架下,对目标领域剩余的非标注样本学习进行情感分类。实验结果表明,该方法有效加强了对未标注数据的学习能力,提升了领域适应的情感分类效果。