论文部分内容阅读
当今世界是一个数据爆炸的大数据时代,随着信息技术的空前发展,海量的数据成为最有价值的财富。聚类作为数据挖掘的一种常用技术手段,广泛应用于数据分析过程的各个环节。面板数据(Panel Data)又称时间序列-截面数据,因兼具多种数据特性而被广泛采用。相较于单一结构的数据,面板数据的特殊数据结构除可提供更多信息外,还能体现数据的动态性。聚类的两个关键步骤在于样本相似度的表征及聚类算法的选择,面板数据三维结构的动态性和复杂性导致聚类过程中样本间与类间的相似性均难以测度。基于此背景,本文从相似性统计量设计角度入手研究,提出了两种适用于多指标面板数据的聚类方法,实证结果显示两种方法都能有效地完成对研究对象的聚类,且对面板数据的特征提取角度各有侧重。本文的研究内容可概括为如下几个方面:(1)概述了面板数据聚类方法的研究背景、发展历程及研究现状,总结了现有方法中存在的一些不足之处及可优化的地方,并在此基础上给出了本文的研究内容、创新点及技术路线。(2)剖析了面板数据的结构,详细地阐述了面板数据聚类模型构建过程中涉及到的数据处理方法原理及计算步骤,具体方法包括主成分分析法、熵权法、时间序列数据的符号化方法、趋势距离原理和系统聚类法。(3)从时间序列的趋势符号化研究中受到启发,对其改进扩展并应用到面板数据的处理,巧妙地提取了数据的动态趋势特性,再通过趋势距离表征出研究对象的相似性,构建了一种基于综合趋势距离的面板数据聚类模型。(4)针对以往面板数据聚类方法存在的一些不足之处,借鉴夹角余弦距离的思想,新提出以空间向量的夹角衡量样本的偏离程度,并结合其它三种常用的相似性度量从四个不同的角度对面板数据进行特征提取,充分考虑了个案间的动静态、偏离程度及波动程度相似性,改进了一种多角度特征提取的面板数据聚类模型。(5)分别利用省际居民消费面板数据和主要城市房地产面板数据对本文提出的两种聚类模型进行了实证分析。经验证,两种聚类模型均具有很好的聚类效果,且对数据的特征提取各有侧重。基于综合趋势距离的面板数据聚类模型可以准确的分辨和提取个案的动态发展趋势相似性,对于动态波动频繁的数据可采用这种聚类模型;多角度特征提取的面板数据聚类模型则可以从多个角度综合提取个案间的特征相似性。