基于遗传算法的k-means聚类方法的研究

被引量 : 27次 | 上传用户:cyt200388
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来数据挖掘引起了信息产业界的广泛关注,其主要原因是存在大量的可用数据,并且迫切需要将这些数据转换成有用的信息和知识。通过数据挖掘,可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。聚类分析是数据挖掘的一项基本任务,是一个无监督的学习过程,聚类的目标是在没有任何先验知识的前提下,将数据聚集成不同的类,使得相同类中的对象尽可能相似,不同类中的对象差别尽可能大。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的相互关系。 在聚类分析中,k-means算法可以说是应用较为广泛的一种算法,但它的一个致命弱点是对初始值非常敏感而且容易陷入局部极小值,而遗传算法是一种通过模拟自然进化过程搜索最优解的方法,其显著特点是隐含并行性和对全局信息的有效利用能力,因此产生了基于遗传算法的k-means聚类方法(GKA),它既能发挥遗传算法的全局寻优能力,又能兼顾k-means算法的局部搜索能力,从而更好地解决聚类问题,但其收敛速度与k-means算法相比就比较慢。本文以进一步提高算法收敛速度为目的,提出了一种改进的遗传k-means遗传算法。该算法是以GKA算法为基础,在允许个体包含空类的前提下对算法的各项操作作出改进;同时添加了增量式操作,对类中心和目标函数可以增量式计算,使算法的收敛速度得到了提高。本文还设计了一个聚类分析系统,利用该系统,经过实验验证基于遗传算法的k-means聚类方法的收敛效果要优于k-means算法;改进的GKA算法要比原GKA算法的收敛速度快,特别是当输入的变异概率比较小的时候,这种优势更明显。另外本文还提出将改进的GKA算法用于Web日志挖掘的用户聚类系统中。利用该算法对Web用户进行聚类可以避免初始值对聚类结果的影响,并且能搜索到全局最优解,更好的为用户提供个性化服务以及对Web站点进行改进优化。
其他文献
论文通过对原有的电容偏置电压式光电探测电路进行深入理论分析和优化改进,利用AEPX65超高速硅光电二极管(最高响应时间可达到1ns)和Tektronix公司的TDS5000B系列高速数字荧
随着Internet的快速发展和网络技术的不断进步,智能化和网络化的发展促成了软件Agent技术的发展,Agent技术为复杂、动态、分布式的智能应用提供了一种新的计算手段。移动Agent
剩余电流动作保护器为低压配电线路和电气负荷提供零序电流保护,对防范接地故障引起的电击和火灾事故有很高的灵敏度。介绍了剩余电流保护器的作用、局限性及应用场合,说明了
新体制的雷达广泛采用相干处理技术和匹配接收技术,使传统的干扰方法相对失效。数字射频存储器(DRFM)可以对雷达信号进行长时间的相干存储,为干扰现代相干体制雷达提供了有力
柴胡注射液灌肠治疗感冒发热30例山东省威海市文登中心医院(264400)李宗宪刘秀平关键词感冒发热柴胡注射液灌肠疗法笔者自1992年以来,应用柴胡注射液保留灌肠,治疗感冒发热30例,疗效满意,报道如下
扶正法在治疗甲头腺疾病中的应用江苏省中医院(210029)卞卫和许芝银关键词扶正法慢性淋巴细胞性甲状腺炎甲状腺机能减退症甲状腺机能亢进症亚急性甲状腺炎甲状腺肿瘤甲状腺疾病属中医
人才测评是选拔人才的重要方法,作为人力资源管理的起点和基础正发挥着越来越重要的作用。工商管理人才在人力资源中占极其重要的地位,对于工商管理人才的测评是非常有意义的
审计质量是审计工作的生命线,是关系到审计机关权威和审计事业发展的大事。为了提高审计质量、规范审计行为,2004年4月,审计署制定了《审计机关审计项目质量控制办法(试行)》(以
服务型政府是建立在民主和法治基础上、代表全体公民利益、把为全体公民提供充足和优质服务作为首要职能的政府。它是我国政府改革的目标模式,是新的历史条件下的必然选择,是
提高第二制氢装置吨油产氢率和节省轻油的初步研究陈哲明(齐鲁石化公司胜利炼油厂)1前言为向重油加氢装置提供高纯度的氢气,胜利炼油厂第二制氢装置粗氢气净化部分采用了变压吸附