深度半监督聚类算法的研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:Michellesy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习中,聚类是一项重要的算法。不同于分类算法,聚类算法在所提供的数据没有标签的情况下,将数据中的各个样本点按照它们的相似度程度划分到不同的族类中。同一个簇类的数据样本点的相似度程度很高,相反,不同簇类的数据样本点相似度很低。在聚类划分的过程中,我们是无法知道其划分的标志,只能通过聚类后的结果进行人为的判断该聚类行为是按照什么标准进行的。由于现实中容易获取的数据基本是未经处理的无标签数据,即无监督数据,所以聚类的研究是必要且重要的。从聚类的方法过程来看,聚类前需要对数据样本进行相似度的刻画,这就需要对数据进行预处理。由于深度学习的发展,深度神经网络(DNN)可以用于将数据转换为更加友好的表示,它具有高度非线性变换的固有特性。将深度学习与聚类任务相结合已经成为一种新的聚类方法的研究——深度聚类。深度聚类能通过特征提取有效解决传统聚类对于复杂特征处理不好的问题,同时深度学习通过迭代训练学习方法将聚类效果提升到更好的程度。但是深度聚类方法也是有一些问题没有解决:(1)初始聚类错误伪标签会导致聚类向更坏的方法发展;(2)神经网络中模型往往只是用来进行特征提取,网络提取的特征仍有受流形空间影响的可能,特征本身可能仍存在的流形结构。(3)深度聚类方法特征描述的是图像内部间的关系,图像间的关联没有考虑到。本文主要研究了深度聚类方法中的卷积神经网络聚类方法,并针对上述的三个问题做了一些改进。分别从网络组成,聚类方法和核方法在深度聚类中应用这三个方面对卷积神经神经网络聚类方法进行了研究和实验,并且将其和已有的深度聚类方法进行了实验对比。主要研究工作和成果如下:(1)针对初始聚类错误伪标签导致聚类向更坏方法发展问题,提出了基于多任务学习的卷积神经网络聚类算法。在已有深度聚类方法中,由于需要有标签数据集进行网络的训练和学习,所以采用初次聚类结果的标签作为训练样本。但该标签可能本身是错误的,这就导致聚类因此朝着错误的方向发展。为了改善这一问题,本算法引入了多任务学习的思想和方法,使得分类方法和聚类方法相互指导学习,并且共享卷积神经网络的网络参数。另外,我们还添加了阈值,对聚类结果进行有条件的筛选,从而减少错误伪标签对聚类的负面影响。通过将该算法在图像数据集上的取得的实验结果证明,我们提出的方法确实有益于提高聚类效果。(2)针对神经网络中模型往往只是用来进行特征提取,特征本身可能仍存在的流形结构的问题,提出了基于测地线密度峰值聚类算法。选取能更好地反映出数据集内在所具有的流形结构的测地线密度峰值聚类方法对网络提取出的特征进行聚类。将该聚类方法应用到深度聚类的模型中,使用基于测地线密度峰值聚类方法替代传统聚类方法k-means,从而提出了基于测地线密度峰值的卷积神经网络聚类算法。最终在图像数据集上进行实验,实验结果证明我们提出的方法确实具有处理图像特征存在流形结构问题的能力。(3)针对常见深度聚类方法提取的特征描述的是图像内部间的关系,图像间的关联没有考虑到的问题,提出了基于核函数的卷积神经网络聚类算法。将核方法的思想带入到深度聚类的方法中,希望通过将深度网络提取出的特征再次进行核化,从而建立特征点与点之间的关系,即图像与图像之间的关系,再通过深度聚类方法进行图像聚类。将该方法应用到图像数据中,实验结果证明我们提出的方法确实有助于提高聚类效果。
其他文献
数控机床加工过程中,刀具的磨损会直接影响工件加工效果。对加工刀具磨损的及时检测,根据磨损程度进行刀补调整或刀具更换等操作,可以有效提高加工效率,降低加工成本。当前的
随着人工智能浪潮的到来,深度学习作为表示学习的一个重要分支,其发展大幅提高了视觉识别任务的最终性能。尽管有着大量的理论、学术研究,但在面对复杂应用环境以及计算资源
企业的生产经营会受到各种各样的因素的影响,经营中各种风险也是难以避免的。铅酸蓄电池以及电子零配件企业的财务风险都有一个逐渐暴露,逐渐恶化的过程,陷入经营危机的企业
随着计算能力的提高和越来越多的新算法被提出,机器学习技术已经开始广泛地应用在实际生活中,而相比于实验室环境,在将机器学习算法应用到现实场景时,我们仍然面临着很多需要
股指成份股调整是一个信息事件,不仅引起股价波动,而且对企业经济行为产生重要影响,但是相关研究缺乏对企业环境行为的关注。环境信息披露作为企业向外界传递其环境表现的工
随着无线传感器网络(WSN)的发展有了新的机遇和挑战,许多研究人员也致力于WSN的研究。无线传感器网络是由许多传感器节点组成的,负责收集感兴趣的数据,这些节点能量有限,并且
图像的重对焦技术的目标一般是在一张没有焦点的图像中,选择一定区域进行局部对焦,对其余部分进行模糊的柔焦处理,使该区域作为前景从背景中突出出来,整张图像更具有美学感受
创造力是国家科学技术进步和经济发展的源泉。目前,个体创造性的高低一般通过各种问卷来测量及评定。其测量和评定过程可能夹杂着许多的主观性和不确定性。近年来,开始有学者
砖石古塔作为我国古代高层建筑的杰出代表,不仅具有极高的文化艺术价值,更是我们研究古代建筑施工与结构构造不可多得的珍贵文物。但随着近年地震频发,仅在汶川地震后,便有几
级联型多电平变换器具有模块化、易扩展的优点,但级联多电平拓扑主要应用在高压大功率场合,且开关器件工作在高频开关状态,损耗较大,发热严重,发生故障的概率最大,实际运行情