论文部分内容阅读
摘要:城市类型的划分对国家政治、经济、文化发展方面目标的确定和考核有积极的作用。城市的类型划分涉及多方面的因素,而一般对城市类型的划分都从某一单一指标进行区分,因此本文运用K-means算法对我国的重要城市进行了类型划分。
关键词:K-means聚类;城市类型;城市划分
0引言
城市类型的划分有利于国家宏观差异化管理,对国家政治、经济、文化发展方面目标的确定和考核有积极的作用,同时也方便了企业的战略方向的制定和目标的达成。目前对于城市类型的划分尚无统一的标准。大多数城市类型划分方法都以单一的指标进行划分。然而,城市的发展涉及多方面的因素,人口、经济、社会、生态与环境等等。因此,城市类型的划分也应该综合考虑到以上因素。本文提出一种基于K-means聚类的城市类型划分方法。
1研究现状
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。聚类是探测性数据分析、无监督学习、数据粒化以及信息压缩的基本工具。目前国内外的聚类算法有K-means聚类、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类、WaveCluster聚类等等。综合所有聚类算法,K-means聚类是一种相对简单、易于实现的基于划分原理的聚类算法,因此也得到了更广泛的应用。
2. K-means聚类算法
K-means聚类算法的目标是将数据集划分为多个子集,每一个子集具有自身相似的属性,不同子集之间则存在较大的差异性。它是典型的硬聚类算法,其隶属度只有0和1两个值, 也就是说一个样本只能完全属于某一个类或者完全不属于某一个类。K-means聚类算法在随机选取的聚类中心基础上,以距离作为相似度测度,寻找评价指标J最小的子集。为了寻找出最合适的聚类中心,算法会进行一定次数的迭代运算。
给定数据集,其中有m个属性,将该数据集分为k个子集,即为k类,每一子集表示为,即,且,子集之间无重叠,即。
首先,随机抽取k个点作为初始聚类的中心,由各中心代表各聚类。即从中任意选取k个赋给初始的聚类中心,然后计算所有点到这k个中心的距离,并将点归到离其最近的聚类,即划分出子集。计算距离的方法有明考斯基距离( Minkowski distance)
其中和是两个p维的数据对象, q是一个正整数。当q = 1时, d 称为曼哈坦距离( Manhattan distance)
当q=2时, d 就成为欧几里德距离:
再然后,调整聚类中心,即将聚类的中心移动到聚类的几何中心(即平均值)
依据平方误差和准则函数,即SSE(sum of the squared error)判定聚类结果:
若SSE值不满足聚类需求,则按照上两步继续迭代,只到SSE值合理为止。
3.城市聚类类型划分指标体系
中国是世界闻名的文明古国,也是世界六大城市带发源地之一。中国的城市文明自产生之日起就从未中断过,其丰富的内涵对当代中国城市有着广泛而深刻的影响。考古资料显示,中国城市的产生可以追溯到3600年以前。早期城市的功能是以政治、军事为主的。周朝初期的城市,主要仍分布在黄河中下游地区, 但向北已扩展至太原、北京附近,向南则至汉水、淮河流域。自此之后,我国城市的分布就以这一地区为中心,逐渐向四周生发。历经数千年的发展,城市文明已经具有了更广泛的涵义,它涉及到政治、经济、文化、环境等多方面的因素。对我国城市做一个综合的评价及系统的划分将对我国的宏观调控起到积极的影响。本文选取了对城市发展影响最大的四个因素,这分别是人口、社会、经济、生态与环境,见表1。
4.我国重要城市K-means聚类的城结果
根据北京等36个城市2014年的指标数值,本文运用SPSS软件进行了聚类分析(K值取5),以下是建城市分为4类的结果。
5.结论
与传统的评价理论相比,K-means聚类算法不需要对指标赋权重,从而避开了评价理论合理性的核心问题,即权重的合理性问题。从本文的研究结论来看,作为一种有效的分类方法,K-means聚类算法在城市类型划分中运用前景广泛,可操作性强。
参考文献:
[1] 许锋,周一星. 科学划分我国城市的职能类型 建立分类指导的扩大内需政策[J]. 城市发展研究. 2010(02):88-97
[2] Lin C H, Chen C C, Lee H L, et al. Fast K-means algorithm based on a level histogram for image retrieval[J]. Expert Systems with Applications, 2014, 41(7): 3276-3283.
[3] 劉兆德, 刘聪, 刘强,等. 中国地级及以上城市区域综合发展水平及其类型[J]. 经济地理, 2017, 37(3):25-31.
[4] Jain A K. Data clustering: 50 years beyond K-means[J]. Pattern recognition letters, 2010, 31(8): 651-666.
[5] Witold Pedrycz著,于福生译《基于知识的聚类:从数据到信息粒》[M]. 北京师范大学出版社. 2008.12
关键词:K-means聚类;城市类型;城市划分
0引言
城市类型的划分有利于国家宏观差异化管理,对国家政治、经济、文化发展方面目标的确定和考核有积极的作用,同时也方便了企业的战略方向的制定和目标的达成。目前对于城市类型的划分尚无统一的标准。大多数城市类型划分方法都以单一的指标进行划分。然而,城市的发展涉及多方面的因素,人口、经济、社会、生态与环境等等。因此,城市类型的划分也应该综合考虑到以上因素。本文提出一种基于K-means聚类的城市类型划分方法。
1研究现状
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。聚类是探测性数据分析、无监督学习、数据粒化以及信息压缩的基本工具。目前国内外的聚类算法有K-means聚类、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类、WaveCluster聚类等等。综合所有聚类算法,K-means聚类是一种相对简单、易于实现的基于划分原理的聚类算法,因此也得到了更广泛的应用。
2. K-means聚类算法
K-means聚类算法的目标是将数据集划分为多个子集,每一个子集具有自身相似的属性,不同子集之间则存在较大的差异性。它是典型的硬聚类算法,其隶属度只有0和1两个值, 也就是说一个样本只能完全属于某一个类或者完全不属于某一个类。K-means聚类算法在随机选取的聚类中心基础上,以距离作为相似度测度,寻找评价指标J最小的子集。为了寻找出最合适的聚类中心,算法会进行一定次数的迭代运算。
给定数据集,其中有m个属性,将该数据集分为k个子集,即为k类,每一子集表示为,即,且,子集之间无重叠,即。
首先,随机抽取k个点作为初始聚类的中心,由各中心代表各聚类。即从中任意选取k个赋给初始的聚类中心,然后计算所有点到这k个中心的距离,并将点归到离其最近的聚类,即划分出子集。计算距离的方法有明考斯基距离( Minkowski distance)
其中和是两个p维的数据对象, q是一个正整数。当q = 1时, d 称为曼哈坦距离( Manhattan distance)
当q=2时, d 就成为欧几里德距离:
再然后,调整聚类中心,即将聚类的中心移动到聚类的几何中心(即平均值)
依据平方误差和准则函数,即SSE(sum of the squared error)判定聚类结果:
若SSE值不满足聚类需求,则按照上两步继续迭代,只到SSE值合理为止。
3.城市聚类类型划分指标体系
中国是世界闻名的文明古国,也是世界六大城市带发源地之一。中国的城市文明自产生之日起就从未中断过,其丰富的内涵对当代中国城市有着广泛而深刻的影响。考古资料显示,中国城市的产生可以追溯到3600年以前。早期城市的功能是以政治、军事为主的。周朝初期的城市,主要仍分布在黄河中下游地区, 但向北已扩展至太原、北京附近,向南则至汉水、淮河流域。自此之后,我国城市的分布就以这一地区为中心,逐渐向四周生发。历经数千年的发展,城市文明已经具有了更广泛的涵义,它涉及到政治、经济、文化、环境等多方面的因素。对我国城市做一个综合的评价及系统的划分将对我国的宏观调控起到积极的影响。本文选取了对城市发展影响最大的四个因素,这分别是人口、社会、经济、生态与环境,见表1。
4.我国重要城市K-means聚类的城结果
根据北京等36个城市2014年的指标数值,本文运用SPSS软件进行了聚类分析(K值取5),以下是建城市分为4类的结果。
5.结论
与传统的评价理论相比,K-means聚类算法不需要对指标赋权重,从而避开了评价理论合理性的核心问题,即权重的合理性问题。从本文的研究结论来看,作为一种有效的分类方法,K-means聚类算法在城市类型划分中运用前景广泛,可操作性强。
参考文献:
[1] 许锋,周一星. 科学划分我国城市的职能类型 建立分类指导的扩大内需政策[J]. 城市发展研究. 2010(02):88-97
[2] Lin C H, Chen C C, Lee H L, et al. Fast K-means algorithm based on a level histogram for image retrieval[J]. Expert Systems with Applications, 2014, 41(7): 3276-3283.
[3] 劉兆德, 刘聪, 刘强,等. 中国地级及以上城市区域综合发展水平及其类型[J]. 经济地理, 2017, 37(3):25-31.
[4] Jain A K. Data clustering: 50 years beyond K-means[J]. Pattern recognition letters, 2010, 31(8): 651-666.
[5] Witold Pedrycz著,于福生译《基于知识的聚类:从数据到信息粒》[M]. 北京师范大学出版社. 2008.12