论文部分内容阅读
为了降低无关信息对文本分类精度的影响,提出了基于最小类差异的预处理算法.算法通过分析文本特征在类中的分布情况,将特征划分为三种类型,按照特征在各类间的分布差异,保留对分类有作用的单类特征与多类特征,而将类分布差异较小的一般特征进行过滤.实验结果表明,采用新算法进行分类预处理所得到的分类精度明显优于信息增益、互信息量等预处理算法.