K-means算法与智能算法融合的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:xhb74
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的基本含义就是从海量、不完全、有噪音的数据中获取对用户来说有直接或间接价值的信息。聚类分析的显著特征就是不需要任何先验知识或信息,只是根据事物之间的某些属性,把事物聚集成类,同时要尽可能满足同一个簇内和簇间的高内聚、低耦合要求,聚类是一种无导师监督的学习方法,聚类分析技术的迅速发展使得它被广泛地应用于科研和生活中的各个方面,是数据挖掘领域重要的分支之一。K-means算法是典型的一种划分聚类算法,由于算法简单而且易于实现,受到很多科研人员的关注,但同时也存在一些缺点,如对初始中心点的选择较为敏感,同样的数据集不同的初始化可能会有不一样的结果,特别是面对不规则的数据集或者是大数据集时更是如此。遗传算法是模仿生物界自然选择和进化机制的一种智能算法,以染色体为基本运算单位,通过染色体之间的交叉、变异、复制然后采用事先设定的评价函数最终选择出最优的个体。遗传算法具有潜在的并行性、较强的鲁棒性、问题无关性、全局最优性等优点,从而得到了广泛的研究和应用。云计算是大数据时代来临的必然产物,Map-Reduce计算模型是Hadoop平台里的一个组织架构,它是模仿Google云计算平台架构下的免费的、开源的一个云计算平台。近些年人们对云计算的研究大多是在这个平台下进行的。本文提出了一种在Hadoop平台下,将遗传k-means算法并行化设计实现,这样就可以避免基于MPI并行化繁琐设计同时可以提高算法的运行效率以及聚类的准确性。蚂蚁算法是近年来人们研究的热点,主要原理是研究蚂蚁活动过程中利用分泌的信息素,然后根据信息素浓度的不同来找到最佳的路径或方法。蚂蚁算法除了经常应用在人们熟悉的TSP等问题中,基于蚂蚁觅食以及尸体堆积的聚类算法中也越来越受到关注。基于蚂蚁觅食的聚类算法利用蚂蚁的群体智能性往往可以得到较好的聚类结果但是在聚类的初期由于信息素的匮乏,蚂蚁算法的收敛速度较慢,针对这个缺点本文提出对数据集进行预处理,采用基于密度和距离的方法来选择初始的聚类中心,然后据此生成初始的信息素不均匀分布从而加快了算法的收敛时间。
其他文献
现实生活中存在众多复杂的系统,这些系统构成了抽象的复杂网络。近些年来研究者们对复杂网络的研究产生了浓厚的兴趣,其中复杂网络聚类方法研究成为一个热点研究问题。复杂网
汉语语料库的相关数据已经广泛运用于语言研究、语言教育、人工智能等数个相关领域。随着当代自然语言处理技术以及大数据技术的迅速发展,这些领域的技术研究对汉语相关的分
无线射频识别技术(Radio Frequency Identification, RFID)是一种应用广泛的非接触自动识别技术,其基本原理是利用射频信号通过空间电磁耦合(交变磁场或电磁场)实现无接触信
语料库是指基于不同目的收集起来的文本集合。在网络环境下收集的语料库,其包含的文本大小一般为KB级别,很少达到MB级别,故称之为小文本语料库。由于语料库中所包含的文本数
无线射频芯片是一种集成微控制器与射频收发器为一体,面向工业控制、智能家居及远程医疗等领域的SoC解决方案。伴随着微控制器技术及无线通信技术的飞速发展,新的无线射频芯
在对遥感产品——即影像数据,如景观格局指数产品、城市环境遥感应用产品、国家级自然保护区动态监测与评价产品、全国生态质量遥感监测与评价产品、国家生态建设区域效果综合评价产品、全球环境变化监测与评价产品等——进行生产处理时,需先对遥感影像数据进行分割目标识别来实现信息提取,而连通域标记是分析分割结果以及进行后续目标识别的必要步骤。那么,如何对遥感影像数据进行连通域标记才能满足连通域间边界光滑、图像显示
生物特征识别技术是使用独特的生理和行为特征来进行身份认证的一种技术。相对于其他生物特征系统,指纹识别系统更便捷,同时在成本和性能方面也有更好的表现,这使得它被非常广泛
学位
多智能体网络的一致性与稳定性是复杂系统的两种主要动力学行为,同时也是复杂系统协调控制的前提与根本性问题。随着多智能体网络的一致性问题在诸如无人机、无人驾驶车辆、大
本文在介绍嵌入式系统软硬件相关技术的基础上,重点论述了开放源代码的嵌入式实时操作系统 uC/OS-II基于 ARM微处理器的移植与实现设计。笔者首先分析了uC/OS-II的源代码,对