基于判别信息和几何信息的聚类方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lhaho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们现在处于大数据时代,微信、微博等新媒体迅猛发展,我们不仅是数据的接收者,更是数据的发布者。图片、视频、音频、文字等信息遍布网络,大数据成为网络时代的资产。大数据本身既不是科学也不是技术,大数据的特点是数据数量巨大,价值密度低,实时在线,多源异构,我们希望从庞大的数据中获取有价值的信息,聚类是挖掘大数据资产价值的第一步,大数据突破点在于聚类。现有的机器学习聚类算法如谱聚类、双图聚类、特征选择聚类算法等都存在一定的局限性,传统的谱聚类算法忽略了数据集的判别信息,双图聚类算法没有考虑特征空间的几何信息,特征选择算法忽略了数据本身的自相似性等,聚类的准确率有待提高。因此,我们以聚类为主题,通过挖掘数据本身固有的结构如局部几何结构、全部判别结构,特征空间几何信息等信息对数据聚类。本论文的主要工作如下:  1)谱聚类算法建立在图论中的谱图理论基础上,将聚类问题转化为图的最优划分问题。已有学者证明在一定的条件下,谱聚类算法和非负矩阵分解(NMF)等价。在此基础上,已有的非负谱聚类算法NSC-Ncut、NSC-Rcut、NSSC-Ncut和NSSC-Rcut都没有考虑数据集的全局判别信息。基于谱聚类与NMF的等价关系,考虑到数据集的全局判别信息,我们提出了新的谱聚类算法,即基于全局判别的非负谱聚类算法(GDBNSC-Ncut和GDBNSC-Rcut)。新的谱聚类算法保留了数据集的全局几何结构和全局判别结构,获取了数据的内在几何结构,且有更强的判别能力,提高了聚类的质量。实验结果表明,该算法能获得数据集的全局判别信息,具有更好的聚类效果。  2)特征选择算法剔除了不相关和冗余的特征,保留最有代表性的特征,不仅能降低数据维数,还能提高算法的质量。现有的特征选择算法大都是在数据空间进行,本文提出了一种新的特征选择算法,即基于自表示的双图正则特征选择聚类算法(DFSC),运用数据可以由自身表示的特性,我们同时保留数据空间和特征空间的局部几何信息。通过对数据空间的自表示系数矩阵加以l2,1范数约束,DFSC算法可以有效地选择最具代表性的特征。实验结果表明,由于考虑了特征空间的信息,DFSC算法的聚类质量优于一些其他的特征选择算法。此外,DFSC算法和一些双图聚类算法相比,多了一个选择的过程,对比试验结果表明DFSC算法的聚类质量更高,选择判别性的特征有利于提高聚类质量。  3)特征选择算法被广泛用于高维数据的降维,考虑到高维数据的自表示特征,受流形学习思想的启发,我们提出了一种新的特征选择聚类算法,即基于自表示和局部保留的无监督特征选择聚类算法(SRLP-FS)。我们运用了高维数据可以由自身表示的特性,即每个特征属性可由相关特征属性的线性组合来表示的特性。自表示的系数矩阵可以用来保留特征空间的局部几何信息,我们对自表示的系数矩阵加以l2,1范数约束,SRLP-FS算法可以有效地选择最具代表性的特征。实验结果表明,由于考虑了数据集特征空间的局部几何信息,且运用了高维数据的自表示特性,SRLP-FS算法的聚类质量优于其他一些特征选择算法。
其他文献
WRKY蛋白是植物特有的一大类转录调控因子,模式植物拟南芥中拥有74个成员。前期研究表明WRKY转录因子在植物响应逆境胁迫的过程中发挥着重要的调控作用,然而由WRKY转录因子介导
近年来,西方国家医学理论界正在兴起一门新的长寿理论——“情感应力”说。这种学说认为:在现代生存竞争日益激烈的社会生活中,由于个人竞争能力的强弱与种种客观条件的限制,许多
酸雨,是目前人类遇到的全球性区域灾难之一,对生态循环的平衡和人类健康造成了不可估量的影响,其出现的频率和强度也日益增加。酸雨对凋落物分解与养分还原、生态系统碳循环与碳
MEMS器件在受到循环载荷的作用之后发生失效,这种失效方式即为疲劳失效。例如RF开关等面外运动器件,在循环的振动载荷作用后,器件可能会发生断裂、软化等疲劳失效现象。为了避免
在中国,干旱和铅污染越来越成为限制森林生态系统生产力的重要因素,尤其对雌雄异株森林生态系统构成了严重的威胁。本文选择青杨雌雄植株一年生扦插幼苗为试验材料,采用盆栽试验
雷达对抗近年来一直是军事领域研究的热门,随着大量不同形式的干扰不断涌现以及战场电磁环境的不断复杂化,对雷达抗干扰课题的研究也就显得尤为重要。压制式干扰是雷达干扰的主
监护仪是一种以测量和控制病人生理参数,并可与已知设定值进行比较,如果出现超标可发出警报的装置或系统,必须连续监护病人的生理参数,检出变化趋势,指出临危情况,供医生应急处理和
深度学习起源于人工神经网络,模仿人脑计算模式,可以自动地分层学习出抽象特征,在图像领域应用广泛,尤其是在目标识别和图像分类方面。随着遥感技术的发展,合成孔径雷达(Synt
如今社会,图像扮演着越来越重要的角色,然而图像在成像和传输过程中有很多原因都会导致其质量受损,分辨率下降,因此超分辨率复原在图像处理领域有着举足轻重的地位。这一课题受到
气候变暖将会对陆地生态系统产生影响,土壤也不例外。已有的研究表明气候变暖将提高有机质的分解速率,降低土壤碳储量,并可能有效缓解气候变暖的速率。随着全球变暖趋势的加剧,森