集成成对约束的深度聚类研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hnmaac
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种无监督学习方法,它使得同一个簇的内部对象具有高度相似性,不同簇间的对象具有低相似性。相较于有监督学习(分类)而言,聚类分析要困难得多。近年来,深度神经网络在图像分类、自然语言处理和语音识别等领域取得了巨大成功,其重要原因之一在于它能够自动提取出数据的多种层次特征。本文利用深度神经网络和弱监督信息—成对约束—来进行聚类。成对约束是指对象间的一种二元关系,即两个对象必须属于同一个簇(Must-Link),或者两个对象必须不属于同一个簇(Cannot-Link)。相较于类标签信息,这些成对约束更加容易获取。针对现有的约束聚类模型与深度聚类模型可能存在的不足,本文提出一种集成成对约束信息的深度聚类模型,该模型包括一个嵌入到聚类算法内的全连接神经网络。然后,对于给定的成对约束信息,我们用以训练全连接神经网络。最后利用该神经网络对样本对进行二元关系预测,再结合K-means算法获得聚类结果。理论上,现有的基于距离的聚类算法和大部分神经网络均可以在此模型基础上进行替换并进行应用。实验结果表明,该模型在多个数据集上均有不错的聚类效果,验证了该模型的有效性。本文主要工作包括:1)提出一个学习成对约束关系的深度二元分类器,利用输入的成对约束训练该二元分类器。同时设计实验验证深度二元分类器预测的成对约束是合理的,即大部分的预测成对约束与实际成对约束保持一致。2)提出一个集成成对约束的深度聚类模型。该模型利用上述深度二元分类器与K-means算法相结合进行聚类。同时通过实验验证模型的神经网络部分可以较好地预测样本与簇中心点间的关系,将样本点分配到合理的簇。3)将本文所提出的集成成对约束的深度聚类模型与现有的多种聚类算法(包括传统的聚类算法及已有的深度聚类算法)相比较,验证所提模型的有效性。
其他文献
[目 的]1)了解我国狂犬病的分布概况,深入分析我国国家监测点狂犬病病例的暴露史、暴露后处置(PEP,Post-exposure Prophylactic)史、潜伏期等特征,探索我国狂犬病病例发病的
脊髓损伤(Spinal cord injury,SCI)是由炎症、感染、外伤等引起的脊髓功能丧失,临床主要表现为运动感觉功能障碍、尿便障碍、神经痛等。脊髓损伤的发生率不高,却具有高致残率
深度学习通过多层特征提取方式,可以将原始复杂数据自动表征为高级抽象特征,该方法具有很强的建模能力,在模式识别、语音识别、自动驾驶、人机对弈、计算机视觉、自然语言处
随着信息爆炸式增长,计算机需要处理的信息越来越多,但是硅芯片的技术难以支撑日益增大的计算量,导致计算机领域遇到发展瓶颈。为了解决这一问题,科学家提出了生物计算机概念。随着生物计算机研究的逐渐深入,人们发现DNA的并行计算能力,纳米分子结构,超高的存储能力等特点在突破计算机发展瓶颈上有很大的优势。生物分子逻辑运算(如DNA计算或DNA编程诊断)也因此受到了广泛关注。目前生物分子逻辑运算模型大多通过荧
春秋战国时期,百家争鸣为君主寻求济世安民之道,他们各自为营,产生了儒、法、道等政治思想学说,围绕时政展开激烈的讨论。直到战国末期,政治、制度开始趋于统一,百家在争鸣的
在现实世界的管理与工程领域,存在着诸多多目标优化问题。一个多目标优化问题通常存在多个而不是单个最优解。而基于群体的进化算法(evolutionary algorithms,EAs)在一次运行中就可以同时搜索到这多个最优解。虽然大多数已存在的多目标进化算法(MOEAs)都是基于帕累托占优的算法,近些年提出的一些基于分解的多目标进化算法表现得越来越成功和流行。尤其是一种采用锥形分解方法的锥面积进化算法
Linux系统中存在的安全隐患绝大部分都由内核引发,而设备驱动程序在内核中占据重要地位,因此设备驱动程序涉及到的安全漏洞问题极有可能造成整个操作系统的瘫痪。由于驱动程
随着移动互联网的兴起、新兴媒体的普及,各种拍照、摄像设备的爆炸式增长,人们将各种图像分享到社交媒体上,在线图像的数量巨幅增长。如何在这些数量庞大、内容丰富的图像数据中检索出相似图像,一直是图像领域研究的热点问题。图像的特征选择和检索的效率是图像检索研究者们关心的重点问题。选取合适的图像特征对图像检索的性能很重要。卷积神经网络(Convolutional Neural Networks,CNN)由更
目的:胆管癌(CCA)恶性程度高,是由胆管细胞沿胆道恶性转化形成的异质性肿瘤,在解剖学上分为肝内胆管癌和肝外胆管癌,近年来发病率逐年攀升,在肝胆系统恶性肿瘤中占7%-10%。某
目的:检测DNA复制关键酶核糖核苷酸还原酶M2肽(Ribonucleotide Reductase,RR)在慢性乙型病毒性肝炎、肝硬化、肝细胞癌患者外周血中的表达差异并分析其影响因素。方法:本研究