论文部分内容阅读
随着计算机技术的不断发展,信息数据大量增加,甚至呈指数级态势迅猛增长。有效利用这些信息数据的难度也随之增加。同时,在这些信息数据中还存在大量的无用信息以及有害信息,为处理信息的过程带来了极大的负面影响。因此,如何高效地利用信息数据,已经成为了机器学习领域的研究热点。此外,文本作为一种常见的信息数据形式,如何有效地对文本数据加以分类,则是文本信息处理过程中的重要任务。为了提高文本分类的快速性和准确性,针对分类效率及分类准确率的问题,本文采用了一种将遗传算法(GA)和支持向量机(SVM)相结合的文本分类方法。该方法将支持向量机的参数看作遗传算法的一个染色体,并进行二进制编码,将支持向量机的分类准确率用作遗传算法的适应度函数,对每一个个体适应度进行评价,并通过选择、交叉和变异的遗传操作,得到对文本分类数据最优的支持向量机参数,最后利用带有最优参数的支持向量机对属于既有类别的文本数据进行分类。一般情况下,对于新进的文本信息数据,我们可将其归入既有类别,然而既有类别往往无法满足大量新进的文本信息内容,即新进文本数据的类别往往会超出既有类别的范围。因此,如何有效地判断新进文本信息数据是否可以分类至既有类别,同时又可将不属于既有类别的文本信息数据进行分群处理,新增不属于既有类别的群聚类别,同样具有一定的实际意义。针对新进文本信息数据无法被分类至既有类别的问题,本文提出了一种渐进式分群方法。首先利用遗传算法选取合适的特征词组合来训练既有类别文本信息的支持向量机,并用测试文本信息将属于既有类别的文本信息数据进行分类;然后对于未分至既有类别的文本信息进行分群,利用遗传算法进行分群群数的最优化,并且选取模糊分群法(即FCM)的最佳分群中心点。最后,使用效果衡量指标Precision、Recall以及F-measure评估本研究的效率及分类准确率Macro-average和Micro-average。实验结果表明,使用GA-SVM方法可以有效地提升分类效果,而使用GA-FCM方法进行分群也可以取得较好的分类效果。