K-means算法与智能算法融合的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户：xhb74

【摘要】

：

数据挖掘的基本含义就是从海量、不完全、有噪音的数据中获取对用户来说有直接或间接价值的信息。聚类分析的显著特征就是不需要任何先验知识或信息,只是根据事物之间的某些

【作者】

：

管玉勇

【机构】

：

安徽大学

【出处】

：

安徽大学

【发表日期】

：

2014年期

【关键词】

：

遗传算法蚂蚁算法 hadoop mapreduce 并行化 k-means算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘的基本含义就是从海量、不完全、有噪音的数据中获取对用户来说有直接或间接价值的信息。聚类分析的显著特征就是不需要任何先验知识或信息,只是根据事物之间的某些属性,把事物聚集成类,同时要尽可能满足同一个簇内和簇间的高内聚、低耦合要求,聚类是一种无导师监督的学习方法,聚类分析技术的迅速发展使得它被广泛地应用于科研和生活中的各个方面,是数据挖掘领域重要的分支之一。K-means算法是典型的一种划分聚类算法,由于算法简单而且易于实现,受到很多科研人员的关注,但同时也存在一些缺点,如对初始中心点的选择较为敏感,同样的数据集不同的初始化可能会有不一样的结果,特别是面对不规则的数据集或者是大数据集时更是如此。遗传算法是模仿生物界自然选择和进化机制的一种智能算法,以染色体为基本运算单位,通过染色体之间的交叉、变异、复制然后采用事先设定的评价函数最终选择出最优的个体。遗传算法具有潜在的并行性、较强的鲁棒性、问题无关性、全局最优性等优点,从而得到了广泛的研究和应用。云计算是大数据时代来临的必然产物,Map-Reduce计算模型是Hadoop平台里的一个组织架构,它是模仿Google云计算平台架构下的免费的、开源的一个云计算平台。近些年人们对云计算的研究大多是在这个平台下进行的。本文提出了一种在Hadoop平台下,将遗传k-means算法并行化设计实现,这样就可以避免基于MPI并行化繁琐设计同时可以提高算法的运行效率以及聚类的准确性。蚂蚁算法是近年来人们研究的热点,主要原理是研究蚂蚁活动过程中利用分泌的信息素,然后根据信息素浓度的不同来找到最佳的路径或方法。蚂蚁算法除了经常应用在人们熟悉的TSP等问题中,基于蚂蚁觅食以及尸体堆积的聚类算法中也越来越受到关注。基于蚂蚁觅食的聚类算法利用蚂蚁的群体智能性往往可以得到较好的聚类结果但是在聚类的初期由于信息素的匮乏,蚂蚁算法的收敛速度较慢,针对这个缺点本文提出对数据集进行预处理,采用基于密度和距离的方法来选择初始的聚类中心,然后据此生成初始的信息素不均匀分布从而加快了算法的收敛时间。

其他文献

基于优化的复杂网络聚类方法研究

现实生活中存在众多复杂的系统,这些系统构成了抽象的复杂网络。近些年来研究者们对复杂网络的研究产生了浓厚的兴趣,其中复杂网络聚类方法研究成为一个热点研究问题。复杂网

学位

网络聚类社团结构优化方法局部搜索连接强度点聚类边聚类

汉语句式结构研究与应用

汉语语料库的相关数据已经广泛运用于语言研究、语言教育、人工智能等数个相关领域。随着当代自然语言处理技术以及大数据技术的迅速发展,这些领域的技术研究对汉语相关的分

学位

依赖关系树依存句法分析LTP句式库句式检索平台

基于ALOHA的RFID防碰撞算法的研究

无线射频识别技术(Radio Frequency Identification, RFID)是一种应用广泛的非接触自动识别技术,其基本原理是利用射频信号通过空间电磁耦合(交变磁场或电磁场)实现无接触信

学位

RFID防碰撞算法ALOHA标签估计线性回归

小文本语料库在Hadoop平台上的存储策略研究

语料库是指基于不同目的收集起来的文本集合。在网络环境下收集的语料库,其包含的文本大小一般为KB级别,很少达到MB级别,故称之为小文本语料库。由于语料库中所包含的文本数

学位

小文本语料库HSCS存储策略Hadoop平台合并检索

基于Cortex-M0+内核Kinetis无线射频模块的应用研究

无线射频芯片是一种集成微控制器与射频收发器为一体,面向工业控制、智能家居及远程医疗等领域的SoC解决方案。伴随着微控制器技术及无线通信技术的飞速发展,新的无线射频芯

学位

射频芯片微波电路片上系统芯片设计

海量灰度图像8连通域标记算法的设计与应用

在对遥感产品——即影像数据，如景观格局指数产品、城市环境遥感应用产品、国家级自然保护区动态监测与评价产品、全国生态质量遥感监测与评价产品、国家生态建设区域效果综合评价产品、全球环境变化监测与评价产品等——进行生产处理时，需先对遥感影像数据进行分割目标识别来实现信息提取，而连通域标记是分析分割结果以及进行后续目标识别的必要步骤。那么，如何对遥感影像数据进行连通域标记才能满足连通域间边界光滑、图像显示

学位

遥感影像数据灰度图像海量8连通域分块处理

面向移动终端的部分指纹拼接技术研究与实现

生物特征识别技术是使用独特的生理和行为特征来进行身份认证的一种技术。相对于其他生物特征系统，指纹识别系统更便捷，同时在成本和性能方面也有更好的表现，这使得它被非常广泛

学位

指纹识别拼接算法移动终端匹配参数

多层分类的协同入侵检测

学位

多智能体网络的一致性问题研究

多智能体网络的一致性与稳定性是复杂系统的两种主要动力学行为，同时也是复杂系统协调控制的前提与根本性问题。随着多智能体网络的一致性问题在诸如无人机、无人驾驶车辆、大

学位

多智能体网络复杂网络一致性分组一致性牵制控制