论文部分内容阅读
文本分类和聚类技术是应信息检索和查询需要而出现的自然语言处理领域的重要研究课题。面对急速膨胀的各种文本信息,通过使用文本分类和聚类技术,人们能对这些信息进行高效地组织和整理,以便于实现信息的准确定位和分流,从而提高用户查询和检索的效率。文本分类和聚类的研究开展了四十多年,随着人们对该问题的深入了解和重视,投身此项研究的人员逐渐增多,各种成果不断涌现。然而,文本分类和聚类问题毕竟是一项涉及多学科知识的复杂问题,还有许多问题有待我们深入研究。文本分类和聚类问题中的特征选择和抽取技术、文本特征表示、聚类方法的选择和实现以及分类方法的选择和实现,都将对文本分类和聚类结果产生极大影响。本文的主要研究工作和创新如下:1.针对文本分类和聚类中的各种问题,提出了一种混合并行遗传算法。该算法充分利用并行遗传算法的全局优化能力和并行性,以及K-Means聚类算法的高效性和局部优化能力,通过K-Means聚类、种群内遗传和变异、种群间的并行进化和联姻策略,为文本分类和聚类提供了较高的效率和精确度。2.将混合并行遗传算法应用到文本聚类问题中,采用并行遗传算法对文本特征词进行动态提取,有效地降低了文本对象的特征维数;使用混合并行遗传算法进行文本聚类,动态获取聚类数目,增强了文本聚类的精度。3.将混合并行遗传算法应用到文本分类问题中,使用混合并行遗传算法进行潜在语义挖掘,消除了同义词和近义词对文本分类精度的影响;使用混合并行遗传算法对KNN文本分类算法进行改进,同时使用并行遗传算法对SMO-SVM算法进行参数优化,最后通过高效的改进KNN文本分类算法结合SMO-SVM分类算法对文本集合进行分类,有效地降低了分类候选数目,并提高了分类性能。4.为了验证本文所提算法的高效性和可行性,我们从国家语委现代汉语语料库中抽取大量文本进行了多项对比实验。实验证明该算法相对于其它方法在文本分类和聚类中具有不俗的表现。