论文部分内容阅读
文本分类是指按照一定的分类体系或标准将未知文本区分一个或多个类别的过程.当前文本数据逐步呈现出海量、多元、易变等新特性,给文本分类技术带来巨大挑战.粗糙集在处理数据的不确定性和模糊性等问题上,具有天然的优势,其主要思想是在不削减分类能力的前提下,通过属性约简得到基本的决策和分类规则.针对上述相关问题,本文通过对粗糙集的研究,结合文本分类现有的技术,提出了一种新的文本分类方法.具体研究工作如下:首先,通过对差异关系的研究,本文提出了改进的差异关系和限制差异关系.在构建关系的过程中,结合容差粗糙集的边界控制理念,重新定义了属性间差异度的概念.基于改进的差异关系,构建了不完备信息系统中的拓展粗糙集模型,一定程度上解决了粗糙集知识粒度过粗和经典粗糙集对复杂数据处理的局限性等问题.其次,在改进差异关系上引入采用错误分类率的变精度粗糙集,构建了改进差异关系的变精度粗糙集模型,较好地解决了数据中存在的噪声问题.较传统的变精度粗糙集,提高了粗糙集的分类精度,分类结果更加合理、精确.在改进粗糙集的基础上提出了改进的属性约简算法,化解了数据的高维危机,提高分类决策能力.采用UCI中的数据集开展数值实验,改进算法的约简能力得到了较好的验证.最后,针对文本分类中的特征选择与粗糙集的属性约简的互通性,在改进CHI特征选择的过程中引入了属性约简,设计了新的规则抽取算法.将改进CHI特征选择中的负贡献特征项融入到算法中,得到否定决策规则,从负面参与分类决策.基于此构建了新的文本分类方法,并在数值实验中进行了对比分析,实验结果证实了算法的可行性.相较本文涉及的分类方法,改进的新方法在可适用文本数量上增长12.86%,改进效果良好.