论文部分内容阅读
比较研究了中文文本分类中四种不同的特征选择统计方法对k近邻分类器分类性能的影响。这四种特征选择采用的统计方法是:卡方、信息增益、互信息、交叉熵。相应地得到四种不同的特征集合。据不同的特征集合,分别进行了基于特征词布尔值和基于特征词的词频的中文文本分类实验,提出了文本分类系统流程,并给出了评估方法和实验结果。