I-nice聚类算法改进研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:cool_1944
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,无参数聚类算法是无监督学习领域的研究热点之一。无参数聚类算法的主要优点是在对给定数据集进行训练之前,不需要研究人员事先指定参数(例如,簇数目和初始簇中心)。在实际应用中,簇数目和初始簇中心往往是未知的,不恰当的事先指定反而会导致令人不满意的聚类结果,尤其是对于含有较多簇的复杂数据集。尽管存在一些专有的方法能对簇数目和初始簇中心进行优化,但是这些方法要么得出的聚类结果不稳定,要么计算复杂度高。因此,研究一种复杂度在可接受范围内且能自动识别簇数目和簇中心的无参数聚类算法对于学术界和工业界具有一定的理论研究意义和实际应用价值。I-nice(Identify the number of clusters and initial cluster centers)是目前一种最新的无参数聚类算法,由深圳大学黄哲学教授研究团队于2018年提出。该算法通过模拟人类观察山峰的行为,即用观测点去观察数据,可以自动识别簇数目和初始簇中心。它包括两个版本:基于单个观测点的I-nice算法(I-nice SO)和基于多个观测点的I-nice算法(I-nice MO)。其中,I-nice SO首先确定簇数目,然后确定簇中心;I-nice MO是I-nice SO的拓展版本,它首先确定簇中心,然后再确定簇数目。I-nice聚类算法的核心思想是使用伽玛混合模型表示观测点和原始数据点之间的距离分布,并使用k最近邻法确定高密度区域。伽玛混合模型中子模型的数量被视为数据的簇数目,高密度区域的中心被视为簇中心。I-nice聚类算法作为最新的无参数聚类算法,其创新性地引入观测点,将数据从高维度转化一维距离值,并基于期望最大化算法(Expectation-Maximization algorithm,简称EM)求解距离值对应的伽马混合模型,最终识别出原数据的簇数目和初始簇中心。尽管实验显示了I-nice的良好聚类性能,但其存在两个固有的局限:1)I-nice SO对观测点的位置敏感,不合理的观测点位置会导致观测点与原始数据点之间的距离分布不准确,进而影响最终的聚类结果;2)最近邻个数会影响I-nice MO中高密度区域的确定,且其没有提供确定选择值的方法,进而也会影响最终的聚类结果。受核密度估计方法(Kernel Density Estimation,简称KDE)和密度峰机制(Density Peaks Mechanism,简称DP)的启发,本文分别提出了基于核密度估计技术的I-nice改进算法(I-nice algorithm based on KDE,简称I-nice KDE)和基于密度峰机制的I-nice改k进算法(I-nice algorithm based on DP,简称I-nice DP)。前者使用核密度估计技术对Inice算法中GMM的最大子模型数目进行了更合理的自动设置以及使用最小平方差异机制识别更多的潜在簇中心,从而减低了观测点位置的敏感性,改进了I-nice算法的性能;后者使用密度峰策略识别GMM各个子模型对应原数据中的簇数目和簇中心以及使用距离拐点法对得到的候选簇中心进行冗余判断并去冗余,从而在大大降低了算法复杂度的同时提升了算法的泛化能力和鲁棒性。具体内容为:I-nice KDE算法使用核密度估计技术优化了算法迭代次数,不仅提高了算法的准确性,也降低了算法的复杂度;另外,使用最小平均差异准则代替k近邻法来确定最终的聚类中心,显著提高了算法的鲁棒性和有效性;I-nice DP算法使用密度峰策略来确定最佳伽马混合模型各个子模型中的候选簇中心,大大提高了算法的泛化性能和鲁棒性;另外,使用距离拐点法来自动确定距离阈值,从而有效地提高了算法的精确度。本文分别在仿真数据集和真实数据集上对提出的两种改进算法的可行性及有效性进行了实验验证,实验结果表明:I-nice KDE和I-nice DP算法在显著提升I-nice泛化性能的同时也展示出了很强的鲁棒性;同时,与已有的多种经典的聚类算法,例如DBSCAN,BIRCH等,进行实验对比,两种算法都取得了更好的泛化性与稳定性。
其他文献
学位
本论文以名山区为研究区域,通过实地调查,对木本植物的种类、用途及区系成分作了详细分析,研究了名山区木本植物的区系组成、科属地理成分、优势及表征科、属、以及资源植物的主要用途,以期为保护名山区木本植物生物多样性、合理利用和开发木本植物资源提供科学的理论指导。研究结果具体如下:(1)经调查,名山区共有木本植物97科278属588种。其中,蕨类植物1科1属1种,裸子植物9科13属18种,被子植物87科2
随着互联网的发展与移动设备的普及,越来越多的学校与老师将会采用移动学习与线下学习相结合的教学方式。但是市场上现有的移动学习平台多为APP,使用繁琐且用户粘性不好。少有的几个教育类微信小程序也缺少对于计算机课程的针对性设计,而计算机是一门理论与实践性极强的专业,现有教学方式往往忽视了学生对于计算机课程学习的特殊性,导致学习成效甚微。针对当前移动学习存在着APP使用繁琐和微信现有教育类小程序与计算机课
改革开放以来,民间信仰呈现复兴趋势,各地开展民间信仰活动,信仰空间或被重建,或被改造,成为民众表达信仰诉求的重要场所。信仰空间是重要的村落空间组成部分,同一个信仰空间在不同的时期具有不同的功能,呈现出复杂的状态。随着社会的发展,人们对于民间信仰的态度有所转变,对信仰空间的重构就是对地域精神和文化的认同,体现出各个时期地方民众的文化选择。本论文从一个信仰空间所经历的合法化过程为切入点,采用“场域”的
声子晶体是一种具有人工周期结构的复合材料。近年来随着压电、压磁等功能材料在声子晶体结构中的引入,声子晶体的应用范围得到了极大的扩展,如谐振器、滤波器、传感器和微流体操控等领域均可利用声子晶体的独特物理特性实现性能提升。然而随着技术发展,器件的频率逐渐提高(达到几个GHz),压电压磁声子晶体的结构也越发复杂,多层和带有气隙的层状结构逐渐受到学者的青睐,在此,我们着重考虑,当压电、压磁声子晶体结构中存
学位
圆柱体是生产和生活非常普遍的结构。近年来,有不少关于圆柱三维振动的研究,在一些近似方法研究中有人采用了切比雪夫多项式级数作为允许函数来研究圆形和环形平板、实心圆柱和空心圆柱的三维振动。结果显示了切比雪夫多项式在数值计算方面的稳定性,特别适合于高阶模态的计算。但是目前在圆柱体上开槽的研究却不多见。在圆柱体上开凹槽会改变边界条件,使它很难作为一个整体来计算,但我们仍将使用切比雪夫多项式级数和瑞利-里兹
学位
孔隙尺度下非牛顿流体模拟广泛应用于石油开采、生物医学中动脉瘤诊疗等领域,具有重要的实用价值和指导意义。由于非牛顿流体通常具有更复杂的本构方程,其粘度与剪切速率或速度梯度有关,传统计算方法难以有效处理这一问题。格子Boltzmann(LB)方法,作为一种具有动理学背景的介观数值方法,被广泛应用于非牛顿流体流动研究。它易于处理复杂边界、计算效率高、易于并行化,在模拟复杂流体流动时展现了极大优势。本文利
目前楔横轧轴类件成形技术主要是将坯料加热至完全再结晶温度以上,在整个轴类件成形过程中,加热能耗占总能耗的90%以上。因此降低温度轧制可以实现节能减排、绿色制造的目标,为企业带来经济效益,满足节约型社会需求。由于楔横轧轴类件成形过程复杂,轧制温度直接关系着轧件塑性状况和微观组织演变,若直接降低轧制温度,会导致轧件出现各种成形质量缺陷,甚至会损坏模具和轧机设备。本文开展楔横轧轴类件温轧成形技术理论研究