K-Means算法研究及其与智能算法的融合

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zkhjpaul
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,从海量数据中获取有价值信息的需求日益增加,迫切需要一些新的方法来处理海量数据。聚类分析作为数据挖掘中的重要组成部分,对数据挖掘技术的发展有着重要意义。聚类分析不仅可以单独对数据集进行处理,获得需要的数据分布情况,还能够作为其他数据挖掘算法的数据前期预处理操作。针对传统方法在解决现有问题上的不足,和更好的对海量数据进行处理,发现数据集中隐含的有价值信息,以及能更全面、更高效的满足实际应用需要,亟需对相关聚类方法进行深入研究。K-Means聚类算法是一种思想简单易于实现,并且收敛速度快的经典聚类方法,该算法存在的主要缺点是初始化时需要明确给出数据集要聚成簇的数目和初始的聚类中心。群体智能算法是一种模拟群体生物生活习性的优化搜索算法,遗传算法和蚂蚁算法是其代表性算法。遗传算法是对整个解空间进行搜索并且下一代的产生是通过遗传操作获得,所以能够增加解的多样性,扩大搜索范围,避免收敛于局部最优解。蚂蚁算法具有较强适应性,能处理多种类型数据并且能够发现最优解,并且还具有易于与其他智能算法或聚类算法结合成高效、新型组合算法的优点。本文主要是对聚类算法和智能算法进行研究。首先对聚类分析的相关内容进行了介绍,详细分析了聚类的要求、评价准则和经典的聚类方法等,然后介绍了群体智能的相关概念,主要分析了遗传算法和蚂蚁算法的原理及算法流程和优缺点。由于蚁群聚类算法存在前期收敛速度慢,后期出现易早熟的缺点,有学者针对K-Means聚类算法收敛速度快和蚂蚁算法能获得最优解的优点提出将两者相结合的算法,但该算法并没有改善后期易早熟的问题。针对现有方法在后期易陷入早熟的缺点,本文提出在算法迭代后期引入遗传算法中的变异算子,增加解的多样性,扩大搜索范围。通过采用UCI数据集中数据,以及与蚂蚁聚类算法、原有K-Means蚁群聚类算法的对比实验验证改进的新算法能够有效改善收敛局部最优的问题,并且保留了原有算法加快收敛速度的优点。针对K-Means聚类算法初始簇数目值的给定以及随机选择聚类中心对聚类结果产生较大波动的弊端,结合层次聚类的分裂和凝聚思想,提出基于最小生成树的层次K-Means聚类算法,通过仿真实验验证了该算法的有效性。
其他文献
随着数字技术、人工智能和互联网的不断发展,我们的生活被繁多的图像信息所包围,而且图像的分辨率变得越来越高,存储图像所需的容量越来越大,所需的存储方法也变得越来越多样
随着互联网搜索引擎日趋多元化,用户已经习惯于在互联网上借助各类搜索引擎搜索各种信息,包括文本、图像和视频等。传统的基于文本的图像检索系统,大都依赖关键字搜索。由于
随着计算机网络技术的高速发展,利用广泛开放的网络环境进行全球通信已成为时代发展的趋势。网络在提供开放和共享资源的同时,也不可避免的存在着安全风险。曾经作为最主要的
网络系统受到的威胁主要是由于系统漏洞引起的,所以对系统进行漏洞扫描显得尤为重要。本文重点研究分布式漏洞扫描任务调度的算法,以提高漏洞扫描的效率。基于遗传算法的快速
中医(Traditional Chinese Medicine)是以把握和研究生命及疾病的宏观功能规律为核心的学科,在2500多年的发展和实践中,中医以临床实践为基础,对中国以及东亚各国的民众的健
科学工作流是一种基于数据驱动的数据密集型和计算密集型工作流,能够自动化处理用户的业务需求。正因为其能够科学的管理、传输、分析、模拟并通过可视化手段来帮助科研人员
考试报名相当重要,但也相当烦琐、难于管理。由于报名信息、数据过于庞杂,传统的人工报名管理方式已经远远达不到高效、准确等要求,这就要求有一套更先进的管理方式,而随着Intern
随着人类社会信息化的高速发展,多媒体传输已经成为当代网络研究的热点之一。视频作为一种生动直观且信息量丰富的媒体备受人们青睐,但是其巨大的信息量使得其在转发传输方面
随着数字电视的发展,广播电视由模拟向数字的转变已经是大势所趋。各国先后制定了各自的数字电视标准,而欧洲的DVB系统逐渐脱颖而出,其中DVB-T(数字地面广播电视)已经在各国有广
本课题是在课题组已实现的高速串行通信平台的基础上,进一步引伸,设计开源的PCI软核通信模块替代Xilinx公司提供的LogiCORE PCI核,力求在从模式下,做到占用资源更少,传输速度