基于估计理论的层次聚类算法及应用研究基于估计理论的层次聚类算法及应用研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:falconlingzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于距离(也称为度量)的层次聚类算法自出现以来,在生命科学、信息科学、计算机等领域发挥着重要作用。其一方面能够完成对数据进行聚类分析的基本功能,另一方面能够揭示数据内部结构—类与类—之间的关系,从而备受青睐。其聚类结果以聚类树的形式展示,提供了更加丰富的信息,尤其在那些聚类树本身具有明确物理意义的领域是不二选择。  实际应用中距离数据具有不确定性,如存在测量误差或生成模型具有随机性,直接对数据进行层次聚类本质上是将带有测量误差距离的聚类结果视为真值,未考虑不确定性的统计特征。本文侧重理论研究,建立了以层次聚类结果为参数、以距离测量值为观测样本的统计模型,立足于参数估计理论实现最近邻层次聚类(Single Linkage Hierarchical Clustering, SLHC)结果的最优估计,分析了估计的统计性质,提出了基于最大似然的计算可行的估计算法,并成功应用于无线传感器网络(Wireless Sensor Network, WSN)设计和雷达高分辨距离像(High Resolution Range Profile, HRRP)目标识别分帧领域。本文的工作提出了在数据具有不确定性条件下层次聚类的最优实现方法,开辟了(层次)聚类理论研究的新领域,启发了解决实际问题的新思路。  第一章为绪论,阐述了课题研究的意义,总结了层次聚类算法的理论研究和应用现状,指出了SLHC在理论上的优越性,即满足公理化规范、具有稳定性和收敛性,因此本文主要研究基于估计实现的SLHC算法。  第二章简要介绍了层次聚类的基础知识,考虑距离输入数据的统计特性,建立了以聚类树(等效表示为超度量u )为参数的似然概率模型,并研究了SLHC估计的统计性质。将直接对测量数据进行SLHC简称为SLHC ,以区别本文提出的估计SLHC实现算法。在计算SLHC的积分似然概率时,综合利用图论、泛函分析以及拓扑理论,详细分析了度量空间作为SLHC映射原像空间的几何结构和性质,依据最小张树(Minimum Spanning Tree, MST)将积分区间分为多个凸的子空间;证明了在满足一定模型条件下, SLHC等效于利用部分观测数据进行的估计—最大偏剖面似然估计(Maximum Partial Profile Likelihood Estimate, MPPLE),从理论上间接证明了估计算法的优越性;另外,若将SLHC视为一个估计实现,同时证明了其具有一致性。  为了解决无解析表达式的优化问题,第三章基于以上统计模型,提出了基于数值近似的聚类树结构的最大似然估计算法。利用蒙特卡洛积分近似似然概率,  提出了基于狄利克雷(Dirichlet)分布的高度矢量参数a的均匀抽样方法。最大似然估计是在聚类树结构空间上最大化似然概率,本质上属于组合优化问题,当聚类点数为n时,组合数目过大—n!(n?1)!/2n?1—使得全局寻优无法计算,因此,提出了一种基于似然概率的缩小寻优空间策略。基于少量点的仿真实验证明了最大似然估计在获得准确聚类结果的性能上优于SLHC ,但是该方法的计算复杂度随着聚类点数n的增大迅速增加。  为了降低计算复杂度,第四章引入了拟似然概率(Pseudo-Likelihood)模型,并采用蒙特卡洛期望最大化(Monte Carlo EM, MCEM)算法实现估计。拟似然概率用各个变量的条件似然概率的乘积近似联合分布,用于处理联合分布复杂难以计算的问题。本问题最大的难点在于度量的三角形不等式约束关系使得联合概率函数无法计算,拟似然概率的思想被用来放宽三角形不等式约束—即只考虑那些距离较近的变量之间存在的三角形不等式约束。该估计算法极大地降低了计算复杂度,可有效处理数百个点的聚类问题。为了验证算法在一般度量上的性能,本章提出了一种递增地随机生成度量的方法,可高效地生成满足度量公理的随机高维度量。对100个点的SLHC估计仿真实验结果表明,该近似模型有效,通过MCEM算法可以估计得到比SLHC更准确的聚类结果。  第五章为算法的应用研究,在WSN设计领域,提出了一种基于估计SLHC的WSN路由协议,有效降低了网络的能量消耗。本算法改进了基于层次聚类的WSN设计,在类内部采用PEDAP算法,同时,基于估计的SLHC算法在具有距离测量噪声的条件下比直接进行SLHC算法能量利用效率更高。仿真实验通过对比网络的平均能量消耗以及生命周期两项指标证明了算法的优越性。在雷达HRRP目标识别领域,提出了一种基于估计SLHC的分帧方法,对全方位角的HRRP幅度样本数据采用估计SLHC算法聚类,合并同一类内的HRRP得到平均距离像。仿真实验表明,基于估计聚类HRRP模板匹配的目标识别优于等间隔分帧和非估计聚类分帧方法。  第六章结束语总结了本文的主要工作和创新点,并展望了未来的研究前景。
其他文献
自2008年惠普公司实验室报道了忆阻器的物理可实现性后,忆阻器及其应用电路的研究获得了广泛关注,并取得了丰硕的成果。然而,因其物理制备工艺难度大、单位造价高等原因,目前甚至
本文系统论述了国债市场分割的起源、现状以及产生的问题,并在这些思考的基础上提出合理的解决方案。 This paper systematically discusses the origin, current status an
马氏珠母贝(Pinctadafucata)具有两片贝壳,贝壳从外到内分为三层:贝壳从外到内分为三层:壳皮层(periostracum)、棱柱层(prismaticlayer)和珍珠层(nacre)。研究发现珍珠层中含有
樊磊:您这次个展创作的作品,有很多人还没有看到过。首先请您谈谈和以往的作品有些什么样的变化?  唐承华:“写生风景系列”是创作延续而已,我在这创作理念基础之上进一步思考和探索。将自己对自然景象所感悟的方式在画面中呈现出来,在表达方式上达到精神与自然合理新秩序的突破。作品从开始到完成的整个过程对于画家来说就是一种思考,一种体验。  我早期一些作品受到西方的现代艺术思潮的影响,当然,我有很漫长的在国外
研究了几类在给出全部和部分信息时线性泛函和线性算子的反演问题.介绍了最优反演理论的基本结果,特别是最优反演方法的构造.作为例子,讨论了在给出部分傅里叶系数时反演函数
本文研究了智能天线系统中信道接收机数量少于天线阵元数量应用背景下,具有阵列误差校正功能的超分辨达波方向(DOA)估计方法。 在一些实际的应用场景(如星载智能天线)中接
微带天线由于其低成本,低剖面,重量轻,易集成,能与载体(飞行器)共形等优势,被广泛应用于军事与无线通信领域。然而其同样也存在带宽较窄,效率较低,增益较低等缺陷,所以本文在现代通信系
在当今这个信息化社会中,在网络应用的深入发展和技术进步的同时,非法访问、恶意攻击、病毒传播等网络安全威胁也越来越严重。为了保护网络系统安全,防火墙、IDS、防病毒、身份
本文通过对荣华二采区10
期刊
摘要:随着素质教育的不断发展,培养学生的自主学习能力已经成为素质教育的重要目标。在初中英语教学中,教师应探索灵活适合的教学方法,发挥学生的主动性、创造性,提高学生的自主学习能力,培养学生良好的学习习惯。本文主要分析了初中英语教学中学生自主学习能力的培养。  关键词:初中英语;自主学习;自信;引导  一、树立信心,培养学生自主学习的意识  自信是一种境界。以信心为基础,兴趣、意志、信念、注意有机统一