基于遗传算法与模糊聚类的文本分类研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:wangwei0101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据的爆炸式增长,信息处理已经成为人们获取有用信息不可缺少的工具,文本分类也已成为重要研究方向。作为非监督学习方法的模糊聚类分析已成为文本分类研究的热点,对基于模糊聚类的文本分类研究具有重大的理论和现实意义。然而,模糊聚类算法存在初始值敏感问题。因此,本文提出了一种遗传算法优化模糊聚类的文本分类算法。本文对模糊C-均值(FCM)聚类算法的一种改进算法-特征加权的FCM(WFCM)聚类算法,与FCM算法进行了测试比较。结果表明,WFCM聚类算法提高聚类的正确率。遗传算法是一种高效率的随机全局优化搜索算法,本文将遗传算法与FCM结合产生基于遗传算法的特征加权的FCM(WFCM)聚类算法(GWFCM),充分发挥FCM的局部搜索和遗传算法的全局搜索能力。本文在研究现有聚类类别数目自动学习的基础上,对聚类的有效性判断加以改进,在算法中动态改变聚类类别数目,以提高聚类的有效性和精确性。针对编码特征的问题,本文引入一个基因平均差异度的概念,算法的执行过程中,交叉和变异算子,动态地计算基因平均差异度值,使用该值以限制适应度差的个体产生,从而优化了遗传算法的执行性能。这种聚类方法在性能上比经典的聚类算法有较大的改进,它通过非线性映射能够较好地分辨、提取并放大有用的特征。由于在遗传算法的应用中,采用了比例选择算子,会产生进化早期的早熟收敛和进化后期的搜索效率下降等问题。为此,本文提出一种非线性排序选择机制。在群体进化过程中,本文实施精英基因引入策略确保了遗传进化的稳定性,避免无效解的扩散,从而保证了算法的收敛性,确保了遗传进化的稳定性,提高了对聚类中心的搜索效率。为了验证本文所提算法的高效性和可行性,我们将GWFCM与FCM、WFCM进行,抽取大量文本进行实验。通过实验可以看出GWFCM较WFCM的查准率、查全率和F1值分别提高了0.030、0.022、0.026,GWFCM算法相对于其它方法在文本分类和聚类中具有很好的表现。
其他文献
本文针对高等教育自学考试命题资源之间的质量和命题人员水平差异,造成接口众多、访问性差、安全性差等多方面的结局,从而形成了一个个的“信息孤岛”,在这样的技术应用背景
由于医学影像本质上具有模糊性、不均匀性和易受噪声污染等特点,如何对所获得的医学影像进行后处理,得到更有诊疗价值的信息就变得尤为重要。本文研究了一种新的时频分析方法
在过去的十几年里,全球移动通信发展迅速,除了单一的话音业务外,数据业务也获得了极大的增长。然而,任何单一技术的无线网络都不能满足未来人们对移动通信以及普适计算的需求
Web2.0时代的信息共享和在线协同让每个用户不但可以从互联网上获取各种信息,还能自由地发布各种信息或对已有数据添加标注。一种普遍的应用就是对论坛上发布的文章添加标签
移动学习是远程教育的新手段,是无线通信网络技术与移动计算技术相结合的产物。移动学习是数字化学习的全新方式,它突破了传统学习对时间和空间的限制,让随时随地的学习成为
随着网络技术的日益成熟,Web的飞速发展使其成为了一个浩瀚而复杂的巨大数据源。按照数据蕴藏的深度,整个Web可以进一步划分为Surface Web和Deep Web,目前Deep Web中的信息量
数据挖掘是当今人工智能和数据库研究方面最富活力的领域之一。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则挖掘则是数据挖掘的一个最主要研究内容,
随着CCD和CMOS传感器的广泛使用,在许多领域,空间分辨率是成像仪器的一个主要技术指标,但是由于硬件制作工艺水平的限制,如何利用软件方法低成本的增加当前的分辨率级别日益
随着计算机和网络通信技术的迅速发展,数字音像制品以及其他电子出版物的传播和交易变得越来越便捷,但随之而来的侵权盗版活动也呈日益猖獗之势,严重损害音乐、电影、书籍、
随着互联网的不断普及,网络已经跟人们的日常生活密不可分,作为网络管理者,如何在迅速有效地检测网络异常情况的同时,准确地判断和控制整个网络的异常流量,供有关部门作决策分析,已