模型自动选择聚类算法的研究与应用

被引量 : 5次 | 上传用户:h2302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是模式识别的一个重要工具,它在如生物信息学,网络数据分析,信息检索,客户关系管理,文本挖掘,以及科学数据探索等领域中有很多应用。聚类的目的是把一个有限的、未标记的数据集,根据预定义的相似性度量,划分成多个自然的子集(簇),从而使得来自同一簇内的数据对象都彼此接近,不同的簇中的数据对象彼此不同。对聚类分析来说,其中一个最有挑战性也是最困难的问题是确定数据中包含的簇的真实数目。簇的数目在绝大部分已有的聚类算法中是一个输入参数。尽管对于一些应用来说,用户能够利用自己的专业知识预先确定簇的数目。不过对于绝大多数情况,簇的数目k是完全未知的,需要从数据本身估计出来。聚类的结果在很大程度上取决于对k的估计:如果把数据划分成太多簇的话会使结果变得复杂,并且难以进一步分析与阐释;相反,如果把数据划分的簇太少的话会丢失信息,从而误导后续的决策。模型选择是指,在给定数据的情况下,从一组候选模型中选择一个统计模型的过程。在聚类问题中,选择最优的k的过程就是模型选择。本文在以下三个方面研究了具有自动模型选择能力的聚类算法以及它们的应用:(1)由于k-means算法理论简单、容易实现,因此在所有聚类算法中,k-means是应用最广泛的。然而这种算法存在两个严重的问题:需要人工指定聚类数与死单元问题。死单元问题是指如果某个初始的中心点离数据区域距离较远的话永远都没有学习的机会。为了解决这两个问题,经过多年研究,出现了竞争对手受惩罚学习算法(RivalPenalizationCompetitive Learning,RPCL),这种方法能够在聚类过程中自动确定聚类数目。又因为自动确定聚类数目这个优点,可以给一个比真实聚类数大一点的初始聚类数目,从而忽略死单元造成的影响。然而这种算法仍然存在以下几个缺点:首先,一些研究显示,RPCL对惩罚率的选择比较敏感。如果惩罚率设置不好的话,有可能得到不正确的结果。第二,因为RPCL是一个在线学习算法,需要手工设定学习率。如果学习率太大,算法会很难收敛。相反如果学习率太小,算法就会收敛很慢。第三,实验显示,当给定的初始类别数k远远大于真实类别数k的时候,RPCL会比较容易收敛到不正确的类别数。本文在以下三方面改进了RPCL算法。首先,引入了狄利克雷过程先验(Dirichlet Process)到独立判断条件中,利用这个先验,本文的聚类算法聚合性更好。第二,引入了一种自动确定学习率的方法,这种学习率的确定方法被证明是符合牛顿下降法的。第三,根据新的独立判断条件,提出了一种自动确定惩罚率的方法。(2)图像分割是计算机视觉中一种常用的预处理过程,它把图像中的像素根据空间上的接近程度和特征的相似性分割成多个紧凑的图像块。由于图像分割与聚类的内在一致性,基于聚类的方法是常用的无监督图像分割算法。贝叶斯阴阳和谐学习(BayesianYing-Yang harmony learning,BYY)把现实世界X及其表示Y在贝叶斯框架下用阴和阳两种方式来表示。并提出,尽管这两种表示方式理论上应当是相等的,但是实际上由于受到各方面的限制并不相等。因此他提出贝叶斯阴阳和谐学习理论,学习的目标是使阴阳两个系统和谐一致。为了进一步挖掘基于BYY的图像分割算法的潜能,本文提出了一种新的基于BYY的自然图像分割算法。本文基于BYY理论以及Dirichlet-Normal-Wishart先验分布提出了一种新的聚类算法。采用批量更新参数的策略,并且在更新过程中消除了几处复杂项的计算,从而大大加速了聚类过程。在聚类过程中,本算法继承了基于BYY算法的强大的模型自动选择能力。更进一步,开发了一套适用于基于聚类的图像分割算法的后处理过程。与其它基于聚类的图像分割方法相比,本算法一个重要的改进是把超像素作为整体来赋标签而不是每个像素单独赋标签。在BSDS500数据库上做了大量与其它方法以及专家手工分割比较的实验。结果显示,本文算法分割结果和专家分割结果很接近,性能与目前主流算法相比具有优越性。(3)人脸信息处理是计算机视觉中最重要的研究领域之一。由于摄像头以及视频监控系统的广泛应用,人脸数据每时每刻都在急剧增长,刺激了对人脸信息进行自动化处理的需求。经过多年研究,人脸信息处理已经取得了令人瞩目的长足的发展。尽管如此,却存在一个看上去很简单的问题至今没有回答:给定一个人脸数据集,其中到底包含多少个体的人脸数据?要解决以上问题,主要存在下面3个主要的困难。首先,如何从人脸图像中鲁棒的提取人脸特征。其次,如何选择一个紧凑的可区分不同个体的人脸特征子集。第三,如何设计一个聚类算法能够自动确定聚类数目。本文提出了一种用于人脸聚类分析的计算框架,能够在不知道具体人数的情况下给人脸聚类,其中用到的区别性特征由算法自动选择。提取了表观特征与形状特征一起来表示人脸。首先手工标记一小部分人脸图像,主要用来训练主动表观模型,并且确定哪些特征对区分不同个体有明显效果。接着,训练好的主动表观模型用来拟合所有的人脸,每一个人脸都会由一个特征向量来描述。最终,贝叶斯非参数模型被用来对人脸进行聚类。本文用大量的实验来评估此计算模型,实验结果显示了它的可行性与有效性。
其他文献
八闽大地,人杰地灵,自古名家辈出。在这些灿若星辰的先贤大家中,我最钦佩集人品政声书道于一身的伊秉绶。伊秉绶生于清乾隆十九年(公元1754年),病逝于清嘉庆二十年(公元1815
论述了我国2000年西部大开发取得的成果和目前在经济、能源及安全等层面已初步形成的有利局面;从两个视角详细论述了关于"一带一路"战略的开局,其一是着眼本域国内的开局,包
慢性前列腺炎病因病机复杂,顽固难治,且易复发,目前尚无特异性治疗方法,通过慢性前列腺炎临床证候特点,应用中医辨证和辨病相结合的方法,认为湿热毒蕴、瘀血内阻、脾肾两虚为
1鸡肝和鸭肝鸡肝和鸭肝中粗蛋白含量(17.84%和6.54%)低于猪肝和牛肝(20%),但从氨基酸组成可以看出,鸡肝和鸭肝中必需氨基酸含量丰富,尤其含硫氨基酸(蛋氨酸+胱氨酸)超过0.5%.
医疗保险基金的安全事关整个社会的和谐和稳定,防范和化解医疗保险基金风险至关重要。建立医疗保险基金风险预警机制,加强对基金运行过程的分析,及时发现问题并研究采取解决措施
GNSS卫星导航定位系统近年来取得了迅猛的发展,已广泛应用于国民经济的众多领域。然而由于卫星信号频段固定、接收信号功率微弱等系统自身特点,使得导航接收机极易受到外界射频
“另案处理”作为刑事案件分案处理的一种方式,它广泛存在于公诉案件的整个刑事诉讼过程中,如在侦查阶段,公安机关因部分犯罪嫌疑人在逃、重病等原因而将共同犯罪案件分开,对于未
电子游戏往往极力挖掘并满足人的潜在欲望与需求,致使电子游戏中充斥大量的不良信息,这些不良信息在潜移默化中助长了青少年玩家的负面情绪与非道德观念。青少年的道德问题长久
在我国,土地的性质被人为划分为两种,国家所有和集体所有。根据《宪法》、《土地管理法》、《物权法》等法律,城市的土地属于国家所有,农村和城市郊区的土地属于农民集体所有,农村
集成永磁伺服电机是由电机本体、驱动器、控制器、编码器四大组件构成的集成体。高密度、高可靠性、高电磁兼容要求和目标是集成永磁伺服电机设计的核心问题,本文以此为重点,对