面向文本分类的混淆类判别技术

来源 :软件学报 | 被引量 : 0次 | 上传用户:dragonlumeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分析了文本分类过程中存在的混淆类现象,主要研究混淆类的判别技术,进而改善文本分类的性能.首先,提出了一种基于分类错误分布的混淆类识别技术,识别预定义类别中的混淆类集合.为了有效判别混淆类,提出了一种基于判别能力的特征选取技术,通过评价某一特征对类别之间的判别能力实现特征选取.最后,通过基于两阶段的分类器设计框架,将初始分类器和混淆类分类器进行集成,组合了两个阶段的分类结果作为最后输出.混淆类分类器的激活条件是:当测试文本被初始分类器标注为混淆类类别时,即采用混淆类分类器进行重新判别.在比较实验中采用了Newsgroup和863中文评测语料,针对单标签、多类分类器.实验结果显示,该技术有效地改善了分类性能.
其他文献
<正> 为了有效地堵塞税收的跑、冒、滴、漏,必须依靠社会力量,建立多层次、全方位的协税护税网络,才能取得明显效果。一、建立公开的协税护税网络。在城镇按行业或分地段每20
财务报表分析对于研究公司的过去、调整公司的现在、判断公司的未来有着至关重要的作用。它不是简单的"就数字论数字"游戏,而是一个逻辑性很强的分析过程,需要从各种复杂的信
<正>国务院总理李克强5日作政府工作报告时提到,鼓励企业开展个性化定制、柔性化生产,培育精益求精的工匠精神,增品种、提品质、创品牌。"工匠精神"首次出现在政府工作报告中
内部控制是公司治理的一部分,它是由控制点、控制线、控制面和控制体组成的系统,具有整体性、层次性和动态性等特征。其中,控制点是内部控制的起点,控制线是内部控制的基础,
本文分析了狭义和广义审计风险的涵义,并指出注册会计师审计准则将独立审计风险界定为狭义风险的原因。注册会计师为了防范审计风险,除了安排并执行充分、恰当的审计程序,还
项目采购是研发过程风险管理的重要环节,对研发型企业的效率和效益有着非常直接的影响。借助于失效模式与影响分析(FMEA),有效地识别和分析项目采购中的风险,确定研发型企业
近年来,软件体系结构(SA)、基于构件的软件开发技术(CBSD)等开始在软件开发中发挥出重要的作用.CBSD应用的成功主要体现在自底向上构造系统的方法上.目前,对SA的研究还缺乏一
说谎或者说言语欺骗在生活中非常普遍,以往研究表明幼儿在2-3岁左右已经开始说谎。幼儿的说谎有不同的表现,呈现不同的水平,幼儿说谎策略的发展需要进一步研究。在幼儿的说谎
近年来,随着市场经济的快速发展和人们法律意识的增强,社会公众对财务信息质量的要求越来越高,审计风险也受到社会各界的广泛关注。本文拟站在博弈论的角度,对审计风险产生的
<正> 泌尿系感染发病率较高。据我国18万人群普查:女性为2.37%,男性为0.25%,育龄妇女每年发病人次几乎高达6%。目前西医都采用抗菌药物治疗,对控制发作有效,但复发率极高。而