知识增益:文本分类中一种新的特征选择方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:ck101newguy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择在文本分类中起重要的作用。文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用。已有的实验结果表明,IG是最有效的特征选择算法之一,该方法基于申农提出的信息论。本文基于粗糙集理论,提出了一种新的特征选择方法(KG算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力.将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。在两个通用的语料集OHSUMED和NewsGroup上进行分类实验发现:KG算法均超过IG的性能,特别是在特征空间的维数降
其他文献
2010年,拿什么奉献给你的顾客?拿什么套牢你的顾客?JDA透明质酸是你不二的选择。新年换新颜。时下正值美容行业的消费旺季,广州暨大美塑生物科技有限公司产品销售空前火爆,尤其
国务院新闻办2011年9月6日发表《中国的和平发展》白皮书,全面阐释了中国和平发展道路的开辟、中国和平发展的总体目标、中国和平发展的对外方针政策、中国和平发展是历史的必然选择、中国和平发展的世界意义等内容。白皮书庄严重申,中国将坚定不移沿着和平发展道路走下去。   白皮书详细列出了中国的六大“核心利益”:“国家主权,国家安全,领土完整,国家统一,中国宪法确立的国家政治制度和社会大局稳定,经济社会
指代消解是自然语言处理中的一个重要问题,包括专有名词、普通名词、代词的指代识别。本文实现了一个基于机器学习的英语名词短语的指代消解平台,通过对原始语料进行命名实体识别和名词短语识别等一系列预处理,选取了多个有效特征及其组合,分别采用最大熵和SVM两种分类算法对名词短语进行分类,在此基础上着重研究了距离特征对指代消解的影响。在传统的基于机器学习的指代消解研究方法中,候选词和先行语的距离被定义为特征,