论文部分内容阅读
随着博客,商品评论等信息在网络上的涌现,情感分类日益成为一个重要且富有挑战性的课题。情感分类试图根据文本信息,自动评判用户所表达的情感极性(如正面或负面),在电子商务和舆情分析等领域展现出越来越重要的作用。然而,在情感分类领域中,用户表达情感方式多种多样,领域间数据分布也存在明显差异,情感分类的准确率极易受到数据所在领域的限制和影响。对于新领域的情感分类问题,传统的机器学习方法只能通过重新标记训练数据完成学习建模,这通常需要消耗大量的人力物力。为此,我们分别从构建领域间统一的特征空间和集成分类两个方面,展开面向情感分类的领域适应方法研究,提出了基于对数似然比的特征选择算法LTF和基于置信概率的协同学习集成决策算法CEC。主要工作如下:(1)本文提出的面向多领域的情感分类特征选择方法LTF(log-likelihoodratio&term frequency),综合利用了原始领域和目标领域数据,使用词频和对数似然比的统计信息,选取在原始领域富有极性,且在目标领域有较大影响的特征,构建原始领域和目标领域公共特征空间,消减了原始领域和目标领域的数据分布差异,促进了知识的跨领域迁移。(2)在集成分类器方面,本文提出了一种基于置信概率的多领域集成算法CEC(Confident Ensemble Classifier)。该方面借鉴自学习和协同学习的思想,利用置信概率,进行数据的预标记的同时,完成各个基分类器的集成,从而有效提升目标领域的分类精度。通过在情感数据集上的大量实验表明CEC算法确实提高了目标领域的分类准确率。