基于特征点选择的聚类算法研究与应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:userlyc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球信息量的爆炸式的增长,数据挖掘技术已成为新世纪计算机科学技术的研究热点。聚类分析是数据挖掘的最主要的功能之一,聚类就是将数据对象分组为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类分析主要解决的问题是如何在没有先验知识的前提下,实现满足这种要求的聚簇的集合。到目前为止,人们提出了各种各样数据挖掘的聚类算法,但这些算法仅适用于特定的应用以及用户,而且它们在理论和方法上还有待完善,甚至还有严重的不足之处。K-means聚类算法在数据挖掘领域具有非常重要的应用价值。但随着应用领域的拓展和新的问题需求,K-means本身存在的局限越来越突出。在应用中聚类个数通常根据用户视觉和使用方便性假定,但用户往往不能准确的确定聚类个数,聚类个数一旦确定在整个聚类过程中都不能更改,最终得到的簇的数目就是初始的聚类个数。并且初始聚类中心的选取不同也同样会影响聚类算法的效果,因此用户一般不会得到准确的聚类。K-means算法这两个重要缺点严重影响了它在聚类算法中的应用范围。本文在分析了当前各种聚类算法的思想和方法的同时,针对K-means算法存在的一些缺陷和不足,提出了基于特征点选择的聚类算法CFPS (Clustering algorithm based on Feature Point Selection)。CFPS算法同样也属于划分聚类算法,CFPS算法在聚类过程中引入了适应度函数,算法根据对象间的距离和适应函数的值进行聚类和调整聚类个数k,CFPS算法不用选取初始聚类中心,算法开始时每个聚类对象自成一类,因此聚类结果稳定,算法不会陷入局部最优的聚类结果。实验结果表明CFPS聚类算法在数据挖掘中与其它聚类算法相比,CFPS算法提高了聚类精度和效率。因此用户可以方便地使用本文提出CFPS算法,不需要配置复杂的参数,并且能得到更好或一样的结果聚类分析及相关技术在入侵检测中的应用是当前入侵检测研究的一个热点,本文尝试将CFPS聚类算法应用于入侵检测系统中,并使用KDD CUP1999数据集作为实验数据,对K-means算法与CFPS算法进行了仿真实验,算法分析与实验结果表明CFPS算法具有较好的检测性能,可以获得较高的检测率和较低的误报率,该方法克服了传统K-means算法需要人为确定k值和受初始聚类中心点选择影响的问题。
其他文献
入侵检测系统(IDS)已成为网络安全防御体系中的重要组成部分。然而,目前大规模网IDS会实时产生大量琐碎的警报数据,其中普遍存在着冗余的、不正确的警报。这些数量大、质量低
特征选择作为维数约减领域的一个重要分支,对增加机器学习结果的精确度和提高计算效率有着显著的作用。虽然特征选择算法已在监督条件下被广泛研究,然而在非监督条件下,由于
文本挖掘是指从文本数据中抽取隐含的、未知的、有价值的知识的过程。文本趋势挖掘是文本挖掘的一个重要分支,旨在发现文本信息中隐含的趋势规律。科技文献趋势挖掘对研究人员
随着信息技术的快速发展,世界经济全球化的浪潮一波波的汲涌而来,这对企业的生存环境产生深刻的影响,对企业的竞争力提出了新的挑战。企业面对全球化的市场竞争环境时,需要面
在数据库集成领域内,建立异构数据源之间的语义互操作越来越成为一个核心问题,而语义互操作问题最后归结为解决数据冲突的问题,这是数据集成最主要的任务。数据冲突包括模式
随着互联网的不断发展和普及,信息技术的应用已经扩展到了社会经济、政治、军事、个人生活等各个领域。无论是在计算机上存储、处理和应用,还是在通信网络上传输,信息都可能
有关教师教学评价一直是学校的重要工作,是学校进行教师学期和年度考核的重要组成部分。教学评价(包括教学过程和教学结果的评价)的研究,是教育评价的重点。   本文主要研究
数据挖掘技术自诞生以来就致力于发现隐藏在数据中有价值的信息。随着大数据时代的到来,数据挖掘可以将丰富的数据变为一种宝贵的资源,其地位变得更是不可小觑。发现关联规则
全局优化问题是现代优化设计的一个重要独立分支,它在科学、工程、生活等众多领域有着广泛应用。近几年,启发式优化算法以其通用性、智能性等显著优势,得到了极大地研究和发
调整视频图像的分辨率需要视频缩放技术。如果图像缩放技术的处理速度达到实时性要求就可以应用于视频缩放。传统图像缩放技术利用插值核函数对已有像素点进行插值重建还原图