基于混合并行遗传算法的文本分类及聚类研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户：hawkwangyan

【摘要】

：

文本分类和聚类技术是应信息检索和查询需要而出现的自然语言处理领域的重要研究课题。面对急速膨胀的各种文本信息，通过使用文本分类和聚类技术，人们能对这些信息进行高效地组

【作者】

：

戴文华

【机构】

：

华中师范大学

【出处】

：

华中师范大学

【发表日期】

：

2007年期

【关键词】

：

遗传算法文本分类文本聚类 K-Means聚类 KNN分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类和聚类技术是应信息检索和查询需要而出现的自然语言处理领域的重要研究课题。面对急速膨胀的各种文本信息，通过使用文本分类和聚类技术，人们能对这些信息进行高效地组织和整理，以便于实现信息的准确定位和分流，从而提高用户查询和检索的效率。文本分类和聚类的研究开展了四十多年，随着人们对该问题的深入了解和重视，投身此项研究的人员逐渐增多，各种成果不断涌现。然而，文本分类和聚类问题毕竟是一项涉及多学科知识的复杂问题，还有许多问题有待我们深入研究。文本分类和聚类问题中的特征选择和抽取技术、文本特征表示、聚类方法的选择和实现以及分类方法的选择和实现，都将对文本分类和聚类结果产生极大影响。本文的主要研究工作和创新如下：1．针对文本分类和聚类中的各种问题，提出了一种混合并行遗传算法。该算法充分利用并行遗传算法的全局优化能力和并行性，以及K-Means聚类算法的高效性和局部优化能力，通过K-Means聚类、种群内遗传和变异、种群间的并行进化和联姻策略，为文本分类和聚类提供了较高的效率和精确度。2．将混合并行遗传算法应用到文本聚类问题中，采用并行遗传算法对文本特征词进行动态提取，有效地降低了文本对象的特征维数；使用混合并行遗传算法进行文本聚类，动态获取聚类数目，增强了文本聚类的精度。3．将混合并行遗传算法应用到文本分类问题中，使用混合并行遗传算法进行潜在语义挖掘，消除了同义词和近义词对文本分类精度的影响；使用混合并行遗传算法对KNN文本分类算法进行改进，同时使用并行遗传算法对SMO-SVM算法进行参数优化，最后通过高效的改进KNN文本分类算法结合SMO-SVM分类算法对文本集合进行分类，有效地降低了分类候选数目，并提高了分类性能。4．为了验证本文所提算法的高效性和可行性，我们从国家语委现代汉语语料库中抽取大量文本进行了多项对比实验。实验证明该算法相对于其它方法在文本分类和聚类中具有不俗的表现。

其他文献

基于ARM处理器的嵌入式防火墙的研究与实现

随着网络规模和性能的迅速增长,网络安全变得越来越重要,传统的边界防火墙是保障网络安全的重要手段,但是它存在防外不防内、容易被绕过、易出现网络瓶颈等缺陷。嵌入式防火

学位

嵌入式防火墙ARMARM920TDM9000AU-BootLinux包过滤

基于多通道交互技术的几何学习系统研究与实现

多通道交互技术利用人的多个感知通道和控制行为的并行性,扩展了输入输出的带宽,提高了交互的自然性和灵活性。本文对多通道交互技术在教学中的应用进行了研究和探索,提出了

学位

多通道笔交互语音识别多笔划图形

基于边缘方向的高精度快速图像插值算法研究与应用

图像插值是数字图像处理中一项重要技术。传统插值算法模型简单,容易实现,它们原理基本相同,即需要找到与输出图像相对应的输入图像点,然后再通过计算该点附近某一像素集合的

学位

图像插值图像放大边缘检测最大相关性梯度边缘保持阈值

基于Windows Mobile的急救车调度导航系统的设计与实现

在医疗急救系统中，急救车的调度和导航至关重要，建立一个快速而高效的急救车调度导航系统，尽快地将病人送到最近、最合适的医院抢救，并尽可能减少中间环节耽搁的时间，对挽救病人的

学位

Windows MobileGPS地图匹配最短路径算法

图像文字定位与提取技术研究

伴随着信息技术以及网络技术的快速发展,多媒体已经成为信息承载与共享的重要途径,数字图像文字识别技术作为当前图像信息检索与分析的重要环节,在机器人视觉、车牌识别、网

学位

数字图像图像文字定位图像文字识别图像文字提取

基于语义的构件检索系统研究与实现

基于构件的软件开发(CBSD)提出复用软件构件,而不是采用一切“从零开始”的方式,来组装特定领域的应用系统。CBSD可以充分利用已有的开发成果,减少重复劳动,提高软件的开发效

学位

软件复用构件检索语义本体概念映射会话交互

基于小波变换的图像处理算法研究

图像分解和图像增强都是图像处理中关键的预处理技术,而围绕小波变换在这两方面的图像处理算法一直是人们研究的热点。本文的研究工作主要在以下两个方面:首先,传统基于小波

学位

小波变换多尺度分析图像分解图像增强

基于模糊聚类图像分割方法研究

图像分割是从输入图像中提取目标或感兴趣区域的过程,是目标检测和识别过程中的重要步骤。模糊聚类是模糊理论的一个重要的分支,在图像分割中得到广泛应用。本文对应用模糊聚

学位

图像分割模糊C-均值聚类模拟退火核方法

H.264率失真优化和码率控制算法的研究与改进

视频编码的主要目标就是要在编码效率、图像重建质量和编码复杂度之间找到最佳的平衡点。H.264视频编码标准只规定了视频码流编码语法和解码方法,它并没有对编码器给出明确定

学位

H.264率失真优化码率控制复杂度线性模型二次率失真模型

基于轨道交通系统的嵌入式Linux研究与实现

在后PC时代,随着嵌入式处理器性能的迅猛提升,嵌入式操作系统的日益成熟和嵌入式网络技术的快速发展,嵌入式系统正日益广泛被应用到工业控制、医疗卫生、交通运输、通信系统

学位

嵌入式系统轨道交通启动引导程序内核移植

基于混合并行遗传算法的文本分类及聚类研究

与本文相关的学术论文