K-medoids聚类算法的两种改进

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:houwenjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从海量数据中探索出隐含的、全新的、有助于决策的知识或规则的过程,目前在很多互联网公司或是数据事务频繁行业都取得了相当广泛的应用,各类结果的展现层出不穷。聚类分析是数据挖掘领域最为重要也是最基础的的技术手段,无论是理论还是方法都是硕果累累。聚类算法的研究历史长达半个世纪,研究方向主要集中在基于距离的改进算法,代表算法有K-means、k-medoids。K-medoids作为一种典型的无监督的基于划分方式的聚类算法,有着聚类思想简单、聚类过程可行性高,聚类时间复杂度接近线性等优点,同时对大规模数据挖掘也表现出良好的支持,故在很多行业得到了迅猛发展。本文主要从K-medoids聚类算法评价目标函数入手,提出了两种改进方法:第一种方法是结合K-medoids聚类的类内散度矩阵、类间散度矩阵,引入凝聚函数法,将多目标聚类评价函数转化为易于计算的单目标评价函数,并给出了目标聚类评价函数的K-medoids算法的步骤及其流程图。第二种方法是根据Silhouettes有效性指标中的紧致性与分离性聚类评价指标度量,提出具有紧致性及分离性度量的K-medoids聚类评价函数,给出了结合簇间距离度量的K-medoids聚类算法步骤及流程。针对本文提出的两种改进的聚类算法与基于原始K-medoids算法的PAM(围绕中心点的划分算法(Partitioning Around Medoid,简称PAM)进行对比,归纳、分析,探讨了三种方法之间的异同点及适应性,并在人工及实际数据集上对三种方法进行实验仿真验证,从聚类结果的准确性方面说明了新提出的两种算法的可行性。
其他文献
自2008年全球性经济危机后,我国经济受到此次危机的深层影响,部分行业呈现出显著的“供过于求”的长期趋势,产能过剩问题开始受到越来越多的关注。2013年国务院发布《关于化
目的:制订医院制剂骨伤外洗剂壹号的质量标准。方法:用显微鉴别法及薄层色谱法对处方中的主要成分进行定性鉴别。结果:该方法能准确地鉴别出桂枝、当归两味药,而且试验所用仪器、
为解决山西大平煤业有限公司7712综采面地质条件复杂,频繁出现巷道垮塌、围岩垮落的异常,本文针对性地提出了冲击地压预警监测系统、大直径钻孔泄压及打孔爆破泄压控制方案。
复合应用题的基本训练,是学生灵活运用学过的知识和技能,通过一系列动脑活动,解决实际问题的过程,属智力活动。学生解题技能的形成,不是靠机械的重复的练习,而必须以科学的合
对来源于安徽、辽宁和河北地区的草莓空心病株的病原菌进行了分离、纯化、形态观察以及分子生物学鉴定。结果显示,该病原菌在PDA平板上均呈放射状,菌丝的颜色一般为白色,菌丝
目的 建立以气相色谱法测定益康胶囊中维生素含量的方法.方法 以三十二烷作为内标,色谱柱为DB-1毛细管柱(30 m×0.25 mm,0.25μm),FID检测器;程序升温方法为初始温度200℃,
为石门县太平镇烤烟-红薯套种大面积生产提供科学依据,在太平镇茶园村进行了烤烟套种红薯的时间、密度试验。结果表明:在烤烟下部叶采收9~12片叶(一般在7月上旬)时及时套种红
郑州依托京汉和陇海铁路的建设,一跃成为中原交通枢纽,随之带动商业贸易。便捷的交通吸引省内及交通干线上的产棉区城市纷纷向中转地——郑州运输棉花,棉花作为质轻积大且易
河北省临漳县乔菜营中学创建于1956年,是一所农村初级巾学。学校占地面积40余亩,有学生1300人、教职工73人。良好的办学条件。学校有教学楼、实验楼和达标的操场,配有高标准的理
东昆仑成矿带西段地区蕴藏着丰富矿产资源,但由于其自然环境恶劣,人迹罕至,地质调查程度较低。面对高寒缺氧、交通不便的东昆仑成矿带西段高原地区直接开展野外工作,不仅耗费