面向有限监督信息的多标签学习若干关键问题研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:rongweihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签学习(Multi-Label Learning,MLL)研究一个样本与多种标签相关联时的学习问题,在众多热门实际应用中受到了越来越多的关注,例如图像标注、信息检索、推荐系统、生物信息学等。虽然近年来一些性能优异的MLL算法被陆续提出,但它们往往依赖于完整且准确的监督信息,而在实际应用中收集有准确标注的数据通常是困难和昂贵的。在MLL任务中,由于特征空间和标签空间的维度越来越大,影响分类模型性能的同时进一步加剧了对数据精确标注的难度。因此,如何面向有限监督信息来解决多标签学习问题逐渐成为了多标签学习的一个关键瓶颈问题。为了缓解这一问题,越来越多的学者开始研究面向有限监督信息的多标签学习任务。根据有限监督中所提供监督信息的不同情况,可以划分出以下几种不同的MLL任务:缺失标签的多标签学习(MLML)、偏标记的多标签学习(PML)和半监督多标签学习(SML)。这些任务分别用于解决部分有限监督的特殊情况,但实际场景中的监督信息往往更加复杂,很有可能同时存在多种上述有限监督信息。面对实际应用场景中越来越复杂的数据,目前的MLL方法虽已经在一些任务上取得了一定进展,但仍有一些问题需要进一步研究。首先,面对越来越复杂的数据特征,如何更加有效地抽取特征与标签之间的关系,是避免“维数灾难”,提升MLL任务分类性能的关键。其次,实际应用场景中数据标注情况更加复杂,不同设定的有限监督信息通常是伴随出现的。因此,面向混合有限监督信息的MLL问题更加贴近真实情景,如何解决混合有限监督信息的MLL问题具有重要的研究价值。本文主要围绕以上两方面问题展开深入讨论和研究,提出了一些新的MLL方法,主要研究内容包含以下几个方面:1.针对多标签数据面临的高维特征挑战,受基于标签类属特征的相关MLL方法启发,提出一种同时从样本层级和特征层级构建标签类属特征的方法LETTER。现有的构建标签类属特征的方法只考虑来自样本层级的分布信息,忽略了原始特征层级的分布信息,从而影响了重构特征对标签的鉴别能力。与样本分布类似,每个标签对应的正、负样本集合的原始特征分布也有很大的不同。基于上述假设,本文提出了一种同时考虑样本分布和原始特征分布的特征重构方法来构建标签类属特征。为了验证LETTER的有效性,在来自多个领域的14个广泛使用的多标签数据集上进行了实验,结果表明与目前主流的MLL算法相比,LETTER的分类性能取得了一定提升。2.针对缺失标签和偏标记问题同时存在的不准确标记的多标签学习(Incorrect Multi-label Learning,IML)任务,提出了一个新的基于标签传播的两阶段IML方法C~2LP-IML。现有IML方法通常需要一部分精确标注的样本或其他额外的监督信息,如何自动识别标注信息中的噪声,同时补全缺失的标签是该任务的核心问题。近两年一些单独解决MLML问题和PML问题的多标签学习算法被相继提出,但对监督信息存在更多问题的IML任务,这些方法仍具有一定的提升空间。C~2LP-IML方法的基本思想是邻域空间可以为矫正标签提供较大帮助,样本的真实标签在其近邻样本上应具有更高的标注频率,而被错误标注的噪声标签则恰恰相反。因此,C~2LP-IML通过迭代地标签传播,分别从候选标签集和非候选标签集中提取可信标签用于后续的模型学习。然后采用最大后验推理对标签进行两两排序,生成多标签预测模型。为了验证C~2LP-IML的有效性,基于5个广泛使用的基准多标签数据集,在人工合成的15个合成数据上进行的大量实验,实验结果验证了所提算法的鲁棒性。3.针对偏标记和半监督问题同时存在的半监督偏标记多标签学习(Semi-supervised Partial Multi-label Learning,SPML)任务,即仅有少量训练样本被一组冗余的标签候选集标注的情景,提出基于低秩假设和流形约束的半监督偏标记多标签学习方法LION。在SPML场景下,真实标签信息是完全未知的,如何在过滤冗余标注的同时,将监督信息进行准确传播是该任务的核心问题。近年来一些单独解决偏标记问题和半监督问题的多标签学习算法被相继提出,但在解决SPML任务时,这些方法大多受自身任务的设定无法取得良好的分类性能。LION方法一方面基于低秩假设通过获取局部标签相关性来过滤候选标签中的噪声。另一方面,LION利用流形正则化捕获样本的邻域结构,从而使监督信息扩散到未标记样本。为了验证LION的有效性,基于4个广泛使用的基准多标签数据集,在人工合成的48个合成数据上进行的大量实验,大量实验结果表明LION在大多数情况下取得了最优的分类性能,同时在面向冗余监督信息和标注样本较少时具有较强的鲁棒性。
其他文献
随着经济社会高速发展,社会矛盾运动获得了两种新特质,即“跨界与互联”、“风险与突发”,这两种新特质推动着行政管理实践中管理模式与行政情景的扩展,并进一步促使“跨部门协同”作为一种卓具成效的应急管理机制被广泛适用于各领域的应急实践之中。尤其在突发事件频发的当下,应急管理领域的跨部门协同(后文简称“应急协同”)几乎每天都在上演,并不断在更深的治理层次、更广的治理领域以及更完整的治理过程中完成自身的机能
推荐系统是为了解决“信息过载”问题而产生的一种有效工具,随着推荐系统被广泛应用于新闻、音乐、社交平台和电子商务等领域以满足用户的个性化需求,以个性化推荐技术为代表的推荐算法受到了越来越多的关注。其中,协同过滤算法是应用最广泛的个性化推荐算法,由于传统的协同过滤算法只考虑用户的历史反馈数据进行推荐,面临着稀疏性和冷启动等问题。因此,越来越多的研究开始利用更多类型的数据构建混合式推荐算法,例如社交网络
分类问题,如垃圾邮件检测、疾病自动诊断、信用卡诈骗识别等,是机器学习领域的核心基础问题。现有分类方法通常设计一个参数化模型(如深度神经网络)建模数据中特征到标签的映射关系,并使用相应的标注数据训练模型以学习该映射关系。为保证模型的分类性能,这类监督学习方法要求数据的信息是充分、准确、明确的。然而,随着互联网的发展和社交媒体应用的普及,数据规模虽呈现指数式增长,但很大一部分数据是不完备的,其不完备性
超分子弹性体是一类基于超分子非共价相互作用对聚合物链段进行交联而构筑的具有橡胶特性的弹性体材料。非共价相互作用的动态可逆性赋予了超分子弹性体可修复和可循环利用的性能,这延长了弹性体的使用寿命和周期,减少了基于共价交联的弹性体因难以回收降解造成的资源浪费和环境污染,对构建可持续发展社会具有重要意义。近年来,尽管人们已经发展了大量的具有修复和循环利用性能的超分子弹性体,但是,超分子弹性体的发展仍面临如
以分子筛为代表的无机多孔材料,因其具有规则有序的孔道结构、大的比表面积、优异的热稳定性和化学稳定性,已经被广泛应用于催化、吸附分离和离子交换等领域。近年来,研究者们通过调控多孔材料的孔道结构、骨架组成、晶体形貌、以及活性物种掺杂,使其在很多领域展现出前所未有的优异性能。此外,以无机多孔材料为主体,通过主客体自组装的方式,在其孔道中负载量子点、有机分子、金属簇等具有光电活性的客体纳米粒子,从而赋予复
学位
金刚石对顶砧装置(DAC)作为一种应用广泛的高压产生装置,是获得物质在极端压力条件下理化性质的有效工具。随着探测技术的进步,基于DAC的高压原位探测技术不断拓展,使高压科学覆盖的科学领域越来越多。然而,DAC高压技术仍然面临着如无传压介质情况下压力梯度的消除以及压力的准确标定,样品的内加温以及温度的准确探测等问题有待解决。这些问题的存在直接影响到高压物性测量的可靠性和准确性,也限制了DAC的应用领
因具有独特的电子结构及优异的物理化学稳定性,氧化物半导体材料一直受到研究者的高度关注,并广泛应用于气体传感器、电池以及集成电路等诸多领域。基于氧化物半导体材料的气体传感器具有体积小、成本低、便携、操作简便、易制备、灵敏度高以及便于实时监测等优势,在空气质量监测、食品安全、工业/农业生产、消防安全、电子鼻和医疗诊断等领域发挥着关键作用。其气敏性能主要取决于氧化物半导体表面化学吸附氧与待测气体之间的特
季节性冻土区在我国广泛分布,约占国土面积的二分之一以上,季冻区路基不可避免地要经历冻融循环作用,因冻融循环作用造成的道路病害,既会严重影响道路使用寿命、增加后期维修和养护费用,又极大威胁着驾驶者的行车安全。季冻区道路病害成因的本质是路基土在长期服役状态且受外部环境影响下力学性能的衰减,对路基土进行有效改良从而获得性能稳定优良的路基填土是预防路基病害的主要措施,对季冻区道路工程建设、路基工程病害防治
“十四五”时期,我国开启全面建设社会主义现代化国家新征程,把清洁低碳作为能源发展的主导方向,推动能源绿色生产和消费,加快生态文明体制改革,倡导“绿水青山就是金山银山”,“坚决打赢蓝天保卫战”,“建设美丽中国”。热风干燥仍然是我国粮食产后安全保障的关键作业环节,是农业生产中能源消耗的重点环节,关乎到国家的粮食安全战略以及农业的高质量发展,我国东北三省玉米产量已超1.1亿吨,按现在东北地区玉米机械化干