面向情感分类的领域适应方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:yangminfeng_1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着博客,商品评论等信息在网络上的涌现,情感分类日益成为一个重要且富有挑战性的课题。情感分类试图根据文本信息,自动评判用户所表达的情感极性(如正面或负面),在电子商务和舆情分析等领域展现出越来越重要的作用。然而,在情感分类领域中,用户表达情感方式多种多样,领域间数据分布也存在明显差异,情感分类的准确率极易受到数据所在领域的限制和影响。对于新领域的情感分类问题,传统的机器学习方法只能通过重新标记训练数据完成学习建模,这通常需要消耗大量的人力物力。为此,我们分别从构建领域间统一的特征空间和集成分类两个方面,展开面向情感分类的领域适应方法研究,提出了基于对数似然比的特征选择算法LTF和基于置信概率的协同学习集成决策算法CEC。主要工作如下:(1)本文提出的面向多领域的情感分类特征选择方法LTF(log-likelihoodratio&term frequency),综合利用了原始领域和目标领域数据,使用词频和对数似然比的统计信息,选取在原始领域富有极性,且在目标领域有较大影响的特征,构建原始领域和目标领域公共特征空间,消减了原始领域和目标领域的数据分布差异,促进了知识的跨领域迁移。(2)在集成分类器方面,本文提出了一种基于置信概率的多领域集成算法CEC(Confident Ensemble Classifier)。该方面借鉴自学习和协同学习的思想,利用置信概率,进行数据的预标记的同时,完成各个基分类器的集成,从而有效提升目标领域的分类精度。通过在情感数据集上的大量实验表明CEC算法确实提高了目标领域的分类准确率。
其他文献
21世纪是生命科学和信息技术的世纪,共调控基因挖掘是生物学家在基因功能关联领域研究工作的核心之一。DNA微阵列芯片的发展使作为生物信息学数据源的表达水平数据已经能够通
随着信息技术的发展,审计领域的信息量剧增,传统的计算机辅助审计软件在处理这些巨量信息时,逐渐表现出审计周期长、智能化程度低的局限性。为了克服这些局限性,本文提出了智能提
随着企业中各种应用系统的投入运行,企业积累下了大量的、宝贵的历史数据,激烈的市场竞争迫使企业必须引入商务智能来充分利用这些海量信息资源,从中获得有价值的信息,协助中高层
协作通信作为近年来发展起来的一项新技术,主要利用无线信道的广播特性这一潜在的资源,使网络中的节点可以相互协作进行分布式传输和信息处理。协作通信能够提高通信容量、速率
作为一种新型无线网络,机会网络广泛应用于社会各个方面,包括外太空网络、长距离无线链路、自由空间光通信、陆地移动网络和军事自组织网络等。它具有链路间歇连接、数据传输率
社保审计是监督社会保障制度实施过程的一种重要手段。审计人员在社保审计过程中需要查找很多信息资源,而审计方法是其中重要的一种信息资源。目前智能信息处理早已是计算机领
目前正处在IPv6过渡阶段,由IPv4过渡到IPv6是一个长期的过程,IPv6过渡技术是解决IPv6过渡时期IPv4和IPv6互通的重要手段。本文研究了IPv6过渡技术的实现原理、特点与优缺点,分析
移动计算方式的出现打破了传统数据库和计算方式都是基于有线网络和固定主机的假设。而与目前快速发展的移动通信技术和互联网技术结合催生的移动实时数据库更是具有很好的应
近年来,随着生物信息计算、网络入侵检测、文本检索等领域数据量的激增,如何从中快速地提取用户感兴趣的信息成为了一项重要的研究课题,而模式匹配与挖掘是其中的重要组成部分,引
随著社会信息化趋势的不断加深,以及互联网内容和应用的不断完善,互联网用户数量也正在迅速增长。目前,作为掌握大量流量数据的网络运营商,有必要深入挖掘流量价值,分析用户