模糊聚类算法及其在中文文本聚类中的研究与实现

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:suifengangle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着互联网络的快速发展与壮大,各种各样形式的信息也随之而来,在为用户提供大量信息的同时,也给用户从中获取有价值的信息增加了更多的困难。因此如何能够从如此众多的信息中获取到对用户有价值的信息已经成为了当今重要的研究课题。在众多信息中,信息量以文本形式存在的方式最为常见,因此,文本处理已经成为用户获取有价值信息的重要手段。其中,模糊聚类算法也已成为文本处理研究的热点问题之一。目前,经典的FCM算法是比较常用的模糊聚类算法之一,此算法具有较好的理论基础支持,在文本处理和模糊识别等方面都得到了广泛的应用。但是,经典的FCM算法也存在三方面缺点(1)该算法对孤立点数据比较敏感。(2)算法的效果的好坏很大程度上取决于参数初值选取。(3)FCM算法容易陷入局部极值点,而得不到最优解。本文针对第一个缺点通过对数据的隶属度进行加权修改进行改进。本文通过构造模糊相似矩阵并结合统计学知识来解决第二个缺点,以达到良好的初始值选取的效果。对于第三个缺点,引入进化策略优化算法并结合了FCM构成混合型聚类算法使此类问题得以解决。通过以上的研究和改进的基础上,本文提出了新的模糊聚类算法NFCM和NES-FCM,并与经典的FCM算法进行了测试比较。通过实验结果表明新的模糊聚类算法NFCM和NES-FCM提高了聚类的精确性和有效性,并且充分发挥了FCM算法的局部搜索和全局搜索能力。最后,本文设计并实现了基于模糊聚类的中文文本聚类模型,并在该模型中对改进的模糊聚类算法进行了研究和应用,实验结果表明改进后的模糊聚类算法在中文文本聚类处理上具有良好的表现,同时表明了该中文文本模型是有效的。
其他文献
微内核是一种只提供最基本的机制与抽象的操作系统内核。其设计思想就是在不影响操作系统的安全性与稳定性的前提之下,尽可能地将内核功能移到用户态以服务线程的方式来实现,
针对高等院校教学管理系统中数据量不断增加与信息量却相对贫乏之间的矛盾,本文将数据挖掘中的聚类和关联规则技术应用于高校教务管理的数据分析和决策当中。本文以高校教师
随着人类社会的发展,社会的信息化程度越来越高,作为记录信息载体的数据也随之迅猛增长,应运而生的大数据技术也越来越多的应用到实际生活中方便人们的生活。大数据技术的应
随着互联网技术的发展,社交网络服务逐渐影响着人们的生活,微博作为社交网络服务中非常重要的组成部分,在带给用户资讯便利的同时,其中也充斥的网络谣言,轻者影响个人,重者影
高校的资产管理工作重要且繁琐,耗费大量人力效率却不高,设备采购工作往往凭经验安排。为改变现状,本项目研究开发了资产管理处网站,并在此管理系统中加入了决策支持模块,利
随着机器人技术的不断进步,移动机器人的应用领域越来越广泛,基于视觉的导航技术近年成为移动机器人的研究热点之一。与其它非视觉传感器导航相比,它具有信息丰富、探测范围
手机支付业务是指基于移动通信网络和互联网络技术,利用手机,通过短信息、STK、语音、WAP等方式,通过手机支付账户进行消费、充值、转账、查询等电子商务操作,并进行相关业务管理
随着互联网上的文本信息量呈指数式增长,自然语言处理作为计算机智能处理海量文本信息的关键,已成为目前的一个研究热点。当前国际自然语言处理的研究热点有机器翻译,情感分
近年来,随着信息量的迅速增长以及信息承载和传输技术的飞速发展,人们对于显示设备的分辨率、显示效率、视觉效果的要求日益增强。传统的单台普通投影仪虽然价格合理,但是分
近些年,将P2P技术运用到移动无线网络环境中,逐渐引起学术界和产业界的重视,衍生出的新课题移动对等网络(MP2P)是目前计算机和通信技术领域的研究热点之一。开展这项研究对于