论文部分内容阅读
随着数据的爆炸式增长,信息处理已经成为人们获取有用信息不可缺少的工具,文本分类也已成为重要研究方向。作为非监督学习方法的模糊聚类分析已成为文本分类研究的热点,对基于模糊聚类的文本分类研究具有重大的理论和现实意义。然而,模糊聚类算法存在初始值敏感问题。因此,本文提出了一种遗传算法优化模糊聚类的文本分类算法。本文对模糊C-均值(FCM)聚类算法的一种改进算法-特征加权的FCM(WFCM)聚类算法,与FCM算法进行了测试比较。结果表明,WFCM聚类算法提高聚类的正确率。遗传算法是一种高效率的随机全局优化搜索算法,本文将遗传算法与FCM结合产生基于遗传算法的特征加权的FCM(WFCM)聚类算法(GWFCM),充分发挥FCM的局部搜索和遗传算法的全局搜索能力。本文在研究现有聚类类别数目自动学习的基础上,对聚类的有效性判断加以改进,在算法中动态改变聚类类别数目,以提高聚类的有效性和精确性。针对编码特征的问题,本文引入一个基因平均差异度的概念,算法的执行过程中,交叉和变异算子,动态地计算基因平均差异度值,使用该值以限制适应度差的个体产生,从而优化了遗传算法的执行性能。这种聚类方法在性能上比经典的聚类算法有较大的改进,它通过非线性映射能够较好地分辨、提取并放大有用的特征。由于在遗传算法的应用中,采用了比例选择算子,会产生进化早期的早熟收敛和进化后期的搜索效率下降等问题。为此,本文提出一种非线性排序选择机制。在群体进化过程中,本文实施精英基因引入策略确保了遗传进化的稳定性,避免无效解的扩散,从而保证了算法的收敛性,确保了遗传进化的稳定性,提高了对聚类中心的搜索效率。为了验证本文所提算法的高效性和可行性,我们将GWFCM与FCM、WFCM进行,抽取大量文本进行实验。通过实验可以看出GWFCM较WFCM的查准率、查全率和F1值分别提高了0.030、0.022、0.026,GWFCM算法相对于其它方法在文本分类和聚类中具有很好的表现。