基于改进粗糙集模型的文本分类方法优化研究

来源 :武汉理工大学 | 被引量 : 2次 | 上传用户:gdgyhpp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是指按照一定的分类体系或标准将未知文本区分一个或多个类别的过程.当前文本数据逐步呈现出海量、多元、易变等新特性,给文本分类技术带来巨大挑战.粗糙集在处理数据的不确定性和模糊性等问题上,具有天然的优势,其主要思想是在不削减分类能力的前提下,通过属性约简得到基本的决策和分类规则.针对上述相关问题,本文通过对粗糙集的研究,结合文本分类现有的技术,提出了一种新的文本分类方法.具体研究工作如下:首先,通过对差异关系的研究,本文提出了改进的差异关系和限制差异关系.在构建关系的过程中,结合容差粗糙集的边界控制理念,重新定义了属性间差异度的概念.基于改进的差异关系,构建了不完备信息系统中的拓展粗糙集模型,一定程度上解决了粗糙集知识粒度过粗和经典粗糙集对复杂数据处理的局限性等问题.其次,在改进差异关系上引入采用错误分类率的变精度粗糙集,构建了改进差异关系的变精度粗糙集模型,较好地解决了数据中存在的噪声问题.较传统的变精度粗糙集,提高了粗糙集的分类精度,分类结果更加合理、精确.在改进粗糙集的基础上提出了改进的属性约简算法,化解了数据的高维危机,提高分类决策能力.采用UCI中的数据集开展数值实验,改进算法的约简能力得到了较好的验证.最后,针对文本分类中的特征选择与粗糙集的属性约简的互通性,在改进CHI特征选择的过程中引入了属性约简,设计了新的规则抽取算法.将改进CHI特征选择中的负贡献特征项融入到算法中,得到否定决策规则,从负面参与分类决策.基于此构建了新的文本分类方法,并在数值实验中进行了对比分析,实验结果证实了算法的可行性.相较本文涉及的分类方法,改进的新方法在可适用文本数量上增长12.86%,改进效果良好.
其他文献
<正>据国家技监部门验证,市场上有5种家电配套产品副作用大,实用性差,不宜购买.1电视机延寿器.在电视机内部结构合理、设计完善、可靠寿命达1.5~1.6万小时的情况下,根本无须延
以苹果矮化砧木M9-t337和SH5为试材进行了矮化栽培条件下不同树形模式的试验,分析了5年生果园的早期产量和果实质量。结果表明,从单株产量来看,细长纺锤树形、高纺锤树形和疏
农村土地纠纷是继农民负担之后,又一引为人们关注的焦点问题.特别是2004年及2005年连续颁发了二个中央1号文件后,"三农"问题更加得到各级政府的高度重视,支农、惠农、维农、
2003年以来,包括深圳在内的我国部分地区相继发生非典型肺炎(以下简称非典)的重大疫情.面对非典这场突如其来的灾害,在党中央、国务院和省委、省政府的正确领导下,在中央及省
期刊
目的:探讨儿童先天性心脏病直视术后护理经验。方法:对先天性心脏病行直视术后患儿62例进行术后循环系统监护及护理、呼吸道护理、抗感染及引流管护理、饮食护理、心理护理等
有限责任公司经营过程中变更股东或股东之间转让出资额是不可避免,但变更、转让有可能不涉及公司总的注册资本的增减,股东间款项的交割完全可能不通过公司,公司财务该如何作为呢
新的形势对预防医学专业人才提出了更高的要求,为了提高预防医学专业学生综合素质和培养创新思维能力,我院近年来开展了多种形式的“第二课堂”教学,取得了积极的作用。
1905年,在中国历史上运行千年的科举制度废除了!儒家思想在中国传统社会文化中通过科举制度成了核心文化,以至儒家典籍经学化,成了圣典。至今人们对儒家文化仍有诸多争议。为
中国人参主产地在吉林,吉林省的人参产量占全国 80%,在全世界上享有盛誉。
针对抽水蓄能电站地下厂房部分设备出现结露的现象,分析设备结露数据统计,认为停机状态机组技术供水管中存在低温冷却水流动是导致地下厂房部分设备结露的原因,并提出相应的处理