论文部分内容阅读
聚类分析是多元统计分析的一个分支,也是数据挖掘中十分常用的一种分析方法。在传统的聚类分析中,无论分析的数据是横截面数据、时间序列数据还是面板数据,聚类分析的对象通常是采集的离散数据点,相对应的数据处理方式以向量的形式呈现。伴随着信息技术的高速发展,尤其是传感器的普及以及存储技术的飞跃发展,许多领域的数据都呈现出海量性、连续性的特点,数据之中包含着许多动态的信息,这一类数据通常被视作函数型数据。针对函数型数据,传统的聚类分析在聚类的过程中难以衡量数据的动态变化特征,因此提出了函数型聚类分析。相比传统的聚类分析,它将数据看作是一个整体,从函数的视角出发,在聚类的过程中挖掘了数据更多的动态信息。对于具有函数特性的数据,函数型聚类分析方法能够达到更好的聚类效果。基于函数型聚类分析方法的优点,越来越多的学者开始使用函数型聚类分析方法,并对其进行深入的研究与拓展。本文通过对现有函数型聚类分析方法以及传统聚类分析方法的梳理和研究,发现目前函数型聚类分析方法研究的主要方向是基于函数型数据相似性度量的研究,并指出目前函数型聚类分析方法研究中存在的主要问题—基于数值距离或曲线形态的单一角度来衡量函数型数据相似性的问题。为了解决这种单一性问题,本文提出了一种同时兼顾函数型数据的数值距离与曲线形态的相似性度量方法—基于极值点偏移补偿的相似性度量,并将其与现有几种函数型数据的相似性度量方法进行了对比,通过可视化展现更加清晰的区别了各种方法的特点。为了更加满足实际需求,本文尝试将单指标函数型聚类分析方法拓展至多指标函数型聚类分析方法(函数型熵权法)。为了验证方法的有效性,本文分别使用传统的聚类分析方法、基于数值距离的函数型聚类分析方法、基于曲线形态的函数型聚类分析方法以及本文提出的兼顾数值距离与曲线形态的函数型聚类分析方法对上证50样本股的进行聚类,并使用轮廓系数对各方法的聚类结果进行比较,得出如下结论:无论单指标函数型聚类分析方法还是多指标函数型聚类分析方法,聚类分析的效果都优于传统的聚类分析方法;进一步,本文提出的基于极值点偏移补偿的相似性度量,确实达到了同时测度函数型数据的数值距离与曲线形态的效果,使用这种相似性度量进行函数型聚类分析,聚类分析的效果也得到了提升!