基于变精度粗糙集的K-means聚类算法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:cheer4you
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是人工智能领域中的重要组成部分,同时也是一个多领域交叉的学科,广泛的应用于数据处理方面。Pawlak于1982年提出了粗糙集理论(Rough Set,RS),其能够处理数据集中不明确的以及不完备的信息,可以从庞杂的数据中提取出蕴含的重要模式。但是,当数据集中存在噪音数据时,粗糙集在处理此类数据时存在过拟合而无法准确的提高数据处理能力的问题。因此为增强对噪音数据的抗干扰能力,W.Ziarko于1993年提出了变精度粗糙集(Variable Precision Rough Set,VPRS)模型,该模型通过引入了一个精度?来降低RS理论对近似边界区域的严格要求,使得集合的上、下近似拓展到任意精度水平??[0,0.5),VPRS是对经典RS的一种理论拓展。聚类分析是根据对象之间的差异性来反映对象间的相似性,使得类内对象之间的差异性尽可能小,类间对象的差异性尽可能大。K-means聚类算法是一种重要的划分方法,该算法是任意选取簇数K以及聚类中心,将样本数据集分成多个类或簇。K-means聚类算法存在的不足之处是任意选取初始化聚类中心、簇数K以及数据集中存在的噪音数据对聚类结果的影响等问题。本文主要针对K-means算法中的不足之处进行改进,首先将粗糙集理论与K-means算法相结合,提出了自适应的K-means聚类算法;其次将变精度粗糙集理论与K-means聚类算法相结合,提出了基于变精度粗糙集的K-menas聚类算法。通过在合成数据集上做实验验证了本文提出的方法的有效性。本文主要的研究工作如下:1.提出了自适应的K-means聚类算法。主要针对K-means聚类算法中任意选取聚类中心、K值以及数据集中存在噪音点数据对聚类的影响。该算法无需设置初始聚类中心以及K值,利用数据集中数据对象的密度区域连续分布这一特点进行聚类。该算法主要采用粗糙集理论中的上下近似与K-means聚类算法相结合来实现小类的合并,最终自适应的完成聚类。2.提出了基于变精度粗糙集的K-menas聚类算法。主要针对自适应的K-means聚类算法中的噪音点数据对聚类结果的影响做出进一步的改进,该算法将变精度粗糙集理论与K-means聚类算法相结合,采用小类合并的方法,通过设置不同的半径值求出样本对象密度连续区域中小类的上下近似区域,使得更多的样本对象进入近似区域中,并采用K-means聚类算法计算聚类中心,自适应的统计出聚类个数K。3.将自适应的K-means聚类算法与基于变精度粗糙集的K-menas聚类算法应用于合成数据集的分类。基于变精度粗糙集的K-menas聚类算法能够有效处理噪音点对聚类效果的影响,同时通过设置不同的半径r来确定相应的阈值?,进而可以得到相应的近似区域以及边界域。并通过实验验证了本文算法在合成数据集上的聚类效果。
其他文献
随着多核处理器和并发技术的快速发展,并发多线程程序设计成为了软件开发的主流模式,并发系统被逐渐应用于多个领域,为人们的生活提供了诸多便利。然而,并发系统的结构一般比
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种主动式对地观测系统,能够全天时、全天候实施对地观测,SAR图像以其独特的优势发挥着其他遥感图像难以发挥的作用。SAR图像
互联网技术的蓬勃发展导致信息过载,使得公众难以辨别琳琅满目的商品和选择最符合自己需要的商品。因此,基于信息检索的个性化推荐系统应运而生,协同过滤技术是应用最广泛的
自从证券交易市场的出现,世界各地的学者都试图了解驱动股票价格的因素有哪些。尽管文献认为市场是趋于有效的并且与宏观变量有关,但哪些变量是重要的还并不确定。此外,它们
周界入侵电磁传感系统是近年来发展起来的一种户外周界防护系统,该系统广泛应用于机场,军事基地,核电站,工业厂房等重要场所,其原理是将一根漏泄同轴电缆(简称漏缆)浅埋于地
高速宽带无线通信系统中,由于符号间隔降低,导致信号到达接收端的各延时路径可分辨,从而带来多径效应且引入了频率选择性衰落。此信道是非时变的,然而一旦通信双方中的一方处
目的:1.筛选急性脑干梗死患者的差异性内源性代谢物质,通过对获得的生物标志物进行分析,探讨急性脑干梗死发病的可能机制。2.观察针刺组与对照组治疗前后急性脑干梗死患者生物标志物的变化趋势,探讨针刺对急性脑干梗死可能的干预效应。方法:1.以27例临床急性脑干梗死患者和25例正常健康人为研究对象,采集受试者晨起空腹肘静脉血4~5m L,经过高速离心机离心,取血清为检测样本,采用超高效液相色谱-四级杆-飞
日渐成熟的人体运动捕获技术催生了一批大规模运动数据库的出现,为人体动画生成提供了真实且丰富的数据来源。受运动捕获系统成本、环境、资源等方面的限制,通常动画师们会为
随着计算机体系结构的发展,多核处理器内部结构越来越复杂,处理器核的数目和种类不断增加,如何充分利用这些处理器核成为计算机领域的一个研究热点。在多核处理器中,任务调度
在全球经济不断发展,知识经济竞争日趋激烈的今天,现代科技对人类社会的影响日益加深,科技工作者对社会的发展显得越来越突出。但是由于工作压力大、闲暇时间少、久坐、不经