分类型矩阵数据的初始类中心算法设计与实现

来源 :山西大学 | 被引量 : 0次 | 上传用户:sunnus31
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为大数据研究与应用的重要技术工具,为通讯业、银行、保险以及各大电子商务领域中的应用研究提供理论支持。其中基于划分的聚类算法性能的优劣很大程度上取决于初始类中心的选择。现阶段初始类中心选择算法都是针对普通数据,即一个对象对应一条记录,而在实际应用中,一个对象的描述常常不止一条记录。本文将由多条记录描述的对象称为矩阵型对象,由矩阵型对象构成的数据集称为矩阵数据集。截止目前,针对矩阵型数据还没有有效的算法来选择初始聚类中心。若使用已有的算法对其处理,则需要压缩和转换矩阵型数据,这样通常会丢失很多信息且不能够全面反映用户的实际行为。因此本文针对分类型矩阵数据的初始类中心选择进行了探索和研究,提出了新的算法,并与现有的经典算法进行实验对比与分析,主要工作如下:(1)提出了一种基于密度和距离的初始类中心选择算法。根据分类型数据属性值的频率定义了矩阵对象的密度和矩阵对象间的距离,扩展了最大最小距离算法,从而实现初始类中心的选择。(2)提出了一种基于密度和成对约束的初始类中心选择算法。根据属性值的频率和矩阵对象间的平均距离给出新的矩阵对象密度定义,结合了成对约束信息来对初始类中心的选择进行指导,并在聚类过程中,采用约束对信息标签是否一致原则来进一步指导。该算法克服了高密度点可能处于簇的边界处以及选取距离较远样本作为类中心时可能是孤立点等现象,并且适合大规模高维数据。(3)设计并实现了一种基于MATLAB的初始类中心选择系统。系统包括数据加载、参数设置、数据挖掘、数据分析和图形可视化等功能,系统采用GUI技术开发,保证了系统具有良好的可移植性和交互性。本文的研究成果为矩阵型数据的初始类中心选择提供了新方法和新思路,并进一步丰富了分类型矩阵数据的研究。在实际生活中也具有一定的理论和应用价值,相信未来矩阵型数据的研究会成为一个热门趋势,可以解决更多的实际问题。
其他文献
随着社会与科技的进步,各类先进电子器件的发展受到广泛关注。近年来,具有钙钛矿结构的强关联SrMoO3导电薄膜凭借其超高导电性、高温稳定性以及与其他薄膜材料良好的晶格匹配
生物计算是计算机科学与生物科学的交叉融合,具有计算并行度高、计算高效性和容错性强等优点。膜计算是生物计算的一个重要分支,目的是从生物细胞的结构与功能以及器官和组织
星载合成孔径雷达(Synthetic Aperture Radar,SAR)具有全天候、全天时、宽幅观测的优点,是海洋监测与遥感的新型技术手段,舰船目标监测是星载SAR海洋应用的重要方向,在军事侦
我国棉花储量巨大,棉花的产销、储存与广大人民的生活息息相关,同时,棉花是仅次于粮食的第二大农作物,对国民经济的发展有着重要的作用。由于棉花价格高,棉包偷盗事件在仓储
随着科学技术的发展进步和工业生产的需要,实际工程系统的规模和复杂度都迅速提高,这意味着系统更容易出现故障以及故障会给系统带来更严重的影响。为确保系统的安全性和可靠
雷电灾害都不断地威胁着社会公共安全和人民生命财产安全,影响着我们日常的生产生活。对雷电的物理活动过程进行探究,准确的认识雷电活动机理,不仅是雷电科学研究发展的需求,
本论文主要研究氧化物薄膜及器件电致变色(EC)性能,制备/合成了非晶中嵌有纳米晶结构的纳米孔WO3薄膜和层状V2O5薄膜,探究了在H+、Li+、Na+、Mg2+、Al3+等多种传导离子电解质中
串行传输由于在高速数据传输下稳定可靠,且节约成本,而得到广泛应用。然而系统内部的处理仍然采用并行方式,这样一来并串转换SerDes(Serializer/Deserializer)芯片在高速数字
正在俄罗斯杜布纳联合核研究所(JINR)新建的重离子超导同步加速器(NICA)及其上的多功能探测器(MPD)主要用于研究高重子密度的夸克-胶子等离子体,其能量介于高、低能区之间。N
目的:炎症性肠病(Inflammatory bowel disease,IBD)和抑郁常互为因果,IBD的患者常诱发抑郁症状。中医学"肝郁脾虚"牵涉到情绪和消化功能的紊乱,包含了现代医学的IBD抑郁共病