基于图和熵正则化的半监督分类算法

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:rogy520111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半监督学习(Semi-supervised Leaning,SSL)试图利用大量的无标记样本学习数据的内在几何结构,在此基础上利用少量的有标记样本完成降维、分类和回归等任务。由于SSL在减少人工标注代价、提高机器学习性能方面的突出优势,以及在网页检索、文本分类、基于生物特征的身份识别和医疗诊断等领域应用的广泛性,从上世纪90年代开始,它就在机器学习界引起了关注。目前,SSL已成为机器学习研究中最受关注的问题之一。本文在分析了SSL的发展现状和目前仍存在的问题的基础上,对基于图和熵正则化的半监督分类学习中的若干重要问题进行了研究,具体研究内容和成果如下:1、数据图的构造。数据图的构造是设计基于图的SSL算法的第一步。大多数传统数据图构造方法是参数依赖的,且对参数较敏感;另一方面,最近提出的基于稀疏表达的最小化L1模构造模型不能保证非负解,因此不能直接用作图上边的权重。针对这些不足,提出了两个基于非负稀疏表达的最小化L1模构造模型:L1IMP和L1IMPv。两个新模型在现有最小化L1模构造模型的基础上增加了非负约束,从而使得模型的稀疏解不仅可以反映成对样本间的紧密程度,而且可以直接用作图上边的权重。此外,新的图构造方法可以在确定图的邻接结构的同时完成边的权重计算。结合标记传播算法,在UCI和人脸数据集上的实验结果表明,L1IMP和L1IMPv在大多数情况下的分类效果优于传统方法。2、基于不相似性的图SSL算法。负相似性在协同过滤等问题中经常出现。针对目前提出的大部分图SSL算法都不能处理不相似性或负相似性的不足,提出了一个基于负相似性的图SSL模型SMLP。SMLP的优化目标是如下两个量的比值:类标记和正相似性的不一致性以及类标记和负相似性的一致性;同时,SMLP允许有标记样本的标记予以重新标记,运用一种全局优化方法求解SMLP,可以在O ( n3 logε-1 )时间内获得一个ε-最优解。在UCI数据集和协同过滤问题上验证了SMLP算法的有效性。3、适于处理标记有噪声数据的图SSL算法。算法的基本思路是运用软标记方法来处理标记有噪声数据。首先,利用各种标记软化方法将样本的类标记转化为软标记,相比硬标记,软标记可以更好地容纳监督者对模式类别的不确定性。在此基础上,嵌入现有的基于图的SSL算法LGC,以达到预期目的。在有类重叠的UCI和物体识别数据集上的实验表明,与基于硬标记的LGC算法相比,基于软标记的LGC算法可以更好地用于标记有噪声数据的半监督分类学习。4、基于熵正则化的SSL算法。提出了一个基于条件Havrda-Charvat’s Structuralα-熵正则化的直推式半监督分类模型MinEnt。MinEnt的基本思想是:一个好的聚类标准是对无标记样本的一个好的刻画。在MinEnt模型中,用条件Havrda-Charvat’s Structuralα-熵聚类标准刻画无标记样本及其所属类别之间的关系,同时对有标记样本采用其对数似然函数。设计了基于拟牛顿法的求解算法。所提出的算法是判别式的,降低了对模型的依赖程度;同时,它可以预测样本空间中任何一个样本的标记,是一种直推式方法。在UCI数据集上的仿真实验验证了该算法的有效性。
其他文献
五官科护士的慎独修养非常重要,眼耳鼻咽喉是人体的重要器官,一旦病变给病人带来很大的痛苦,对病人的生活也带来很大影响.因此要求五官科护士在自身素质建设中重视道德修养,
目的观察基于舌骨上肌群加强训练的Shaker训练与下颏抗阻力训练(Chin Tuck Against Resistance,CTAR)在鼻咽癌放疗后吞咽障碍的临床疗效比较。方法选取2016年10月至2017年12
《中华人民共和国农业机械化促进法》(以下简称《农业机械化促进法》)提出了大力发展农机专业化服务组织的政策要求。结合牟定县农机专业合作社的发展情况,提出了推进农机合作社
湿度是表示大气干燥程度的物理量。湿度传感器是化学传感器大家族中应用较为广泛的一类传感器。湿度传感器的工作原理是:利用湿度敏感材料直接吸附大气中的水分子,使材料的电
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的 研究分析常规输血与少白细胞技术输血对输血不良反应发生情况的影响。方法 选取我市人民医院于2017年5月至2018年3月收治的88例需接受输血治疗的患者,将其随机分成2组,
在现代社会生活和工业生产中,气体浓度检测有着广泛的需求和应用前景,实时检测混合气体中多种成分的浓度更是被人们广泛研究。传统又年轻的弛豫声学方法混合气体浓度检测,以
摘要:本文基于沈阳工业大学机械工程专业学位研究生的实际培养工作,对其培养模式、课程体系、专业实践和学位论文等环节进行探索与实践,提出“创新培养模式、注重课程设置、突出实践环节、体现工程特色”的改革思路,建立专业学位研究生教育的质量保障体系。  关键词:专业学位;培养模式;实践环节;工程特色  中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2015)31-0131-02  
合肥古称庐州府。清代庐州府辖四县一州,即合肥县、舒城县、庐江县、巢县及无为州。晚清时期。位于合肥县东乡磨店的李鸿章家族,是个世代耕读之家。1838年。李鸿章的父亲李文安
J-TEXT托卡马克装置前身为隶属美国能源部的TEXT-U装置,是一个常规的、中等规模的聚变实验装置。2003年美国德州大学将该装置赠送给华中科技大学,并以此为主要实验平台设立联合