论文部分内容阅读
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间。特征选择是文本分类的一个核心研究课题。提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法。该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明该方法有较