基于加权MP马氏距离的GS方法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:tzt333333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是多元统计分析的一个分支,在社会生活的各个领域应用非常广泛。在聚类分析中,聚类有效性指标对评价聚类效果起着关键性的作用,而聚类数的确定是聚类有效性的重要课题。2000年,Tibshirani R等人提出了用于估计最佳聚类数的GS方法,该方法引入了一个参考分布,通过比较参考数据集和观察数据集的类内离差程度来确定最佳聚类数。GS方法的提出是建立在k-means聚类算法基础上的,本文首先对k-means聚类算法因初始聚类中心随机选取造成的聚类结果不稳定进行了改进,提出了基于权重矩阵的初始聚类中心确定方法。GS方法相比其它最佳聚类数确定方法来说虽然有很多的优点,但是一般只适用于较简单的数据集,这与其选择的相似性度量方法有很大的关系。GS方法中默认的度量方法是欧氏距离,欧氏距离只适用于属性问是相互独立的情况,易受量纲的影响,且对属性同等对待,忽视了各指标不同的重要性对聚类的影响。而经典的马氏距离不仅考虑到了指标变量间的相关性,还对数据集进行了标准化,不受数据量纲的影响。本文以加权MP马氏距离为相似性度量方法,然后在GS方法的基础上提出了WMPGS模型,通过对UCI数据库中一些数据集进行仿真实验。实证表明WMPGS方法不仅拥有和GS方法相同的可行性,而且在较复杂的数据集中,WMPGap曲线能够更合理地反应数据集的特点,且比GS方法有着更好的聚类效果。论文最后指出了该方法存在的问题以及今后的研究方向。
其他文献
针对高校环境工程和给水排水工程实验和校内实习手段单一的现状,学校建立了这两个专业的工程性实验和校内实习瑟地。该基地包含两套工艺系统,可以分解成10余套流程,不仅可以开设
随着环境污染和资源短缺问题的加剧,近年来全球各国不断加大对废旧产品回收再利用的投入,回收再制造也就成为了企业未来发展的一个方向。与此同时,由于闭环供应链各成员业务
采用模糊识别法和氨基酸比值系数法,分别对以鸡蛋蛋白质为标准,以WHO/FAO氨基酸参考模式为评价标准,对鱼尾葵蛋白质营养价值进行了全面评价。结果表明,鱼尾葵蛋白质的贴近度为0.37
中小企业是我国企业的主体。作为一个发展中国家,中小企业在我国经济生活中举足轻重。根据近年统计数据,中小企业在全国工商登记的1000万户企业所占比重达99%,在就业人数中的比重达
近期,烽火通信结合中国电信“光进铜退”的步伐,与中国电信集团运维部就FTTH产业的相关热点问题组织了一次深层次的研讨培训活动。
本文采用分子动力学方法研究稠密二氧化碳在蒙脱石狭缝孔中的结构性质。二氧化碳在孔内固体表面形成高密度层,L宽不同时该密度层与固体表面的距离固定。二氧化碳分子轴线与固
信息产业部于2006年12月14日颁布实施了《移动通信手持机充电器及接口技术要求和测试方法》(YD/T1591-2006)通信行业标准。标准发布后,信息产业部依据国家认证认可制度启动了手机
目的:探讨人性化护理对手术患者的影响。方法:将2008年6月-2009年6月。我院160例择期手术患者随机分为对照组和实验组各80例,对照组按常规护理措施实施护理,实验组实施人性化护理
存在主义哲学探讨的是现实世界的虚无和个体的存在问题,余华小说有一个明显的主题就是对人的生存问题的关注,余华小说对生存的思考与探索有一种深彻的哲学意识。余华小说往往通过对世界与人生荒诞一面的揭示,以及描写人的生存状态和人在面对生存境况时的“生存”方式展开对个体存在的深层思考。余华小说的写作风格经历了“写作自我训练时期”的社会式温暖到1986年先锋叙事阶段荒诞生存境况中的荒诞、暴力、死亡叙述再到199
介绍了有机化学课程教学经验,采用理论教学与实际案例分析相结合、启发式教学方法,引导学生思考问题,激发了学生的学习兴趣,提高了学生发现问题和解决问题的能力。同时注重学