论文部分内容阅读
聚类是无监督的学习算法,它将数据集依照某种聚类准则,分成不同的类,其目标是使得类内的对象尽可能的相似,类间的距离尽可能的远离。在聚类分析的结果中,聚类算法是否适合给定的数据集,得到的聚类结果能否反映数据集固有的结构,这就需要对聚类结果进行评价。传统的聚类有效性评价方法大多是针对低维数据的聚类结果,并且取得了很好的效果,但针对高维的动态心电波形数据,由于其存在曲线的特性,传统有效性评价方法存在一定局限性。本文通过对动态心电波形生物背景以及有效性评价方法的分析,研究动态心电波形聚类结果的有效性分析,提出了适用于心电波形聚类分析效果的内部评价方法和相对评价方法。本文通过分析动态心电波形的特点,提出了改进的FOM方法(Figure of Merit)用于心电波形聚类效果的内部评价。FOM方法是经典的内部评价方法,但该方法反映的是在欧式距离下的类内差异,并不适合对动态心电波形聚类结果进行评价。Hausdorff距离是一种极大极小距离,不需要建立点之间的一一对应关系,只是计算两个点集之间的相似程度。本文在FOM方法的基础上,通过对心电波形分段加权求和,计算Hausdorff距离,提出了一种改进的有效性评价方法,通过对MIT-BIH标准数据库的心电数据进行实验,实验结果表明,与传统的FOM方法相比,改进的方法能对动态心电波形的聚类结果进行有效的评价。对聚类效果进行相对评价的一个难点是确定最佳的聚类类别数。本文提出了一种基于引力概念的相对评价方法,从类内紧密性和类间分离性的角度出发构造有效性函数,以此来确定最佳聚类类别数。通过对MIT-BIH数据库心电数据上的实验,表明与传统经典方法SD(Scat-Dis)指标和DB(Davies-Bouldin)指标的评价效果相比,本文提出的方法具有更好的评价效果。本文最后将所提出的有效性评价的内部评价法和相对评价法应用于动态心电波形聚类效果的评价。通过在MIT-BIH标准数据库上对不同聚类算法的结果评价,实验结果证明所提有效性评价方法可以指导使用者选择适合数据集的聚类算法,同时可以获得最佳的聚类类别数。