新型偏标记学习算法研究

来源 :东南大学 | 被引量 : 4次 | 上传用户:soogler
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在弱监督信息下进行学习已成为机器学习的研究热点,偏标记学习是其中一类重要的弱监督学习框架。在该框架下,训练集中的每个对象对应于输出空间的一个候选标记集合,并且该集合中仅有一个标记为其真实标记。在偏标记学习中,训练样本的真实标记不再确定可得。为了克服上述监督信息缺失的问题,本文主要做了以下三个方面的工作:在偏标记学习中,一种直观的策略是对候选标记集合中的元素平等对待,将模型在各个候选标记上的平均输出作为模型输出。然而,此类模型的性能会受到候选标记集合中“伪标记”的影响。为了克服平均消歧的缺陷,本文提出了一种基于示例的偏标记学习算法IPAL,直接对候选标记集合进行消歧。IPAL算法首先根据示例及其近邻构建一个非对称的相似度图,然后采用迭代标记传播的方式获取示例的真实标记。在测试阶段,算法首先计算未见示例的k近邻,然后采用最小化误差重构准则对未见示例进行预测。最大间隔准则是机器学习中的一类重要学习策略。现有最大间隔偏标记学习算法优化模型在候选标记集合上最大输出和非候选标记上最大输出之间的差异。然而,该算法的潜在缺陷在于未考虑示例的真实标记和候选标记集合中其他标记之间的差异。基于此,本文提出了一种新的基于最大间隔的偏标记学习算法M3PL,直接优化真实标记和其他所有标记之间的差异,对候选标记集合中的标记进行有效区分。现有偏标记学习的基本的策略是消歧。然而,基于消歧的偏标记学习算法会受到“伪标记”的影响。本文通过改进传统的“输出纠错编码(ECOC)"技术,提出了一种基于非消歧策略的偏标记学习算法PL-ECOC。算法对于二值编码矩阵的每一列,根据候选标记集合是否完全落入该列所指定的二分区域,将样本转化为正类或负类样本,从而训练相应的二类分类器。PL-ECOC算法通过以上转化将偏标记问题转化为一系列二类分类问题,并综合这些二类分类器的结果对未见示例进行预测。本文分为五章。第一章介绍偏标记学习的基本概念、研究现状及有待解决问题,并简述本文的工作。第二章至第四章分别介绍IPAL算法、M3PL算法及PL-ECOC算法,并给出具体的实验结果;第五章对本文工作进行总结。
其他文献
遥感图像的发展呈现出高分辨率、高光谱和多时相趋势,但现有遥感成像系统使用的是传统Shannon-Nyquist采样定理,海量数据对其硬件采集、传输和存储过程的处理难度加重。遥感图像的压缩感知重构是利用重构算法让计算机处理稀疏表示后的图像,重构过程具有理论和实用的双重价值。本文详细介绍了遥感图像稀疏表示模型的构建过程,并利用两种优化算法(广义迭代收缩算法(General Iterated Shrin
随着数字化的时代的来临,各种媒体机构正在由传统的模拟信号方式转变为数字化处理方式。MPEG-2图像压缩标准适用于高质量数字视频压缩,在HDTV、SDTV和DVD等标准中有着重要的
互联网的迅速发展已使其成为人类日常生活中必不可少的组成部分。然而,扫描、DDoS攻击等各种安全威胁产生的大量非授权流量(Unwanted Traffic)严重影响着网络的稳定、性能和
针对现有的交流变频调速电牵引采煤机和电磁调速电牵引采煤机在使用过程中存在的不足,提出了采用高性能、高可靠的开关磁阻电机调速系统(Switch Reluctance Drive,简称SRD)作
学位
网格(Grid)是一种在互联网的基础上新兴发展的分布式计算结构,其根本目的是协调资源的共享,而实现资源共享的前提是网格资源发现,它为网格资源调度寻找满足应用需求的各种资
近年来,面向对象的开发方法成为大型应用系统开发环境中的主流开发方法,关系数据库成为大型应用系统开发环境中的主流数据存储系统。数据在软件开发过程中表现为对象,而在关
无线信道环境的复杂性、时变性以及传播路径的多样性决定了信号在无线信道中传输必然存在多径传播现象,而由多径传播造成的信道衰落(即多径衰落)是提高数据传输速率和服务质量的
随着网络硬件设备和系统节点价格的不断下降,带有通信网络的闭环控制系统的应用越来越普遍。网络控制系统有非常广泛的应用前景。由于带宽限制和网络堵塞,通信网络不可避免的
人脸识别是模式识别领域中具有广阔应用前景的课题之一,它是一种基于图像信息处理的模式识别系统。随着社会的发展,科学的进步,人们对于身份鉴别的准确性、安全性与实用性也
学位
随着计算机网络的规模和应用范围的不断扩大,能够快速传染的网络蠕虫给计算机网络安全防护工作带来极大的挑战。现有的安全防御工具如入侵检测系统等大多都是采用基于误用的