基于混合并行遗传算法的文本分类及聚类研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hawkwangyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类和聚类技术是应信息检索和查询需要而出现的自然语言处理领域的重要研究课题。面对急速膨胀的各种文本信息,通过使用文本分类和聚类技术,人们能对这些信息进行高效地组织和整理,以便于实现信息的准确定位和分流,从而提高用户查询和检索的效率。文本分类和聚类的研究开展了四十多年,随着人们对该问题的深入了解和重视,投身此项研究的人员逐渐增多,各种成果不断涌现。然而,文本分类和聚类问题毕竟是一项涉及多学科知识的复杂问题,还有许多问题有待我们深入研究。文本分类和聚类问题中的特征选择和抽取技术、文本特征表示、聚类方法的选择和实现以及分类方法的选择和实现,都将对文本分类和聚类结果产生极大影响。本文的主要研究工作和创新如下:1.针对文本分类和聚类中的各种问题,提出了一种混合并行遗传算法。该算法充分利用并行遗传算法的全局优化能力和并行性,以及K-Means聚类算法的高效性和局部优化能力,通过K-Means聚类、种群内遗传和变异、种群间的并行进化和联姻策略,为文本分类和聚类提供了较高的效率和精确度。2.将混合并行遗传算法应用到文本聚类问题中,采用并行遗传算法对文本特征词进行动态提取,有效地降低了文本对象的特征维数;使用混合并行遗传算法进行文本聚类,动态获取聚类数目,增强了文本聚类的精度。3.将混合并行遗传算法应用到文本分类问题中,使用混合并行遗传算法进行潜在语义挖掘,消除了同义词和近义词对文本分类精度的影响;使用混合并行遗传算法对KNN文本分类算法进行改进,同时使用并行遗传算法对SMO-SVM算法进行参数优化,最后通过高效的改进KNN文本分类算法结合SMO-SVM分类算法对文本集合进行分类,有效地降低了分类候选数目,并提高了分类性能。4.为了验证本文所提算法的高效性和可行性,我们从国家语委现代汉语语料库中抽取大量文本进行了多项对比实验。实验证明该算法相对于其它方法在文本分类和聚类中具有不俗的表现。
其他文献
随着网络规模和性能的迅速增长,网络安全变得越来越重要,传统的边界防火墙是保障网络安全的重要手段,但是它存在防外不防内、容易被绕过、易出现网络瓶颈等缺陷。嵌入式防火
多通道交互技术利用人的多个感知通道和控制行为的并行性,扩展了输入输出的带宽,提高了交互的自然性和灵活性。本文对多通道交互技术在教学中的应用进行了研究和探索,提出了
图像插值是数字图像处理中一项重要技术。传统插值算法模型简单,容易实现,它们原理基本相同,即需要找到与输出图像相对应的输入图像点,然后再通过计算该点附近某一像素集合的
在医疗急救系统中,急救车的调度和导航至关重要,建立一个快速而高效的急救车调度导航系统,尽快地将病人送到最近、最合适的医院抢救,并尽可能减少中间环节耽搁的时间,对挽救病人的
伴随着信息技术以及网络技术的快速发展,多媒体已经成为信息承载与共享的重要途径,数字图像文字识别技术作为当前图像信息检索与分析的重要环节,在机器人视觉、车牌识别、网
基于构件的软件开发(CBSD)提出复用软件构件,而不是采用一切“从零开始”的方式,来组装特定领域的应用系统。CBSD可以充分利用已有的开发成果,减少重复劳动,提高软件的开发效
图像分解和图像增强都是图像处理中关键的预处理技术,而围绕小波变换在这两方面的图像处理算法一直是人们研究的热点。本文的研究工作主要在以下两个方面:首先,传统基于小波
图像分割是从输入图像中提取目标或感兴趣区域的过程,是目标检测和识别过程中的重要步骤。模糊聚类是模糊理论的一个重要的分支,在图像分割中得到广泛应用。本文对应用模糊聚
视频编码的主要目标就是要在编码效率、图像重建质量和编码复杂度之间找到最佳的平衡点。H.264视频编码标准只规定了视频码流编码语法和解码方法,它并没有对编码器给出明确定
在后PC时代,随着嵌入式处理器性能的迅猛提升,嵌入式操作系统的日益成熟和嵌入式网络技术的快速发展,嵌入式系统正日益广泛被应用到工业控制、医疗卫生、交通运输、通信系统