不准确标注下的多标记学习算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:altertig
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习中的分类学习旨在利用已知类别的训练样本进行模型的训练,从而能用该模型来预测未知样本的类别。根据样本的不同类别设置,分类任务可分为三大类:二分类,多分类和多标记分类。前两者可统称为单标记分类,即每个样本只唯一对应于一个类别。而多标记分类则进一步扩展其设置,即每个样本可同时对应于多个类别。这也更加符合现实应用的场景,即现实中的一个研究对象往往同时与多个语义类别有关。然而,随着数据规模的不断增长,想要获得多标记样本的所有真实标记的难度也大大增加。一方面,采取人工方式来标注样本的多个标记费时费力,且容易出现标记错误。另一方面,由于某些标记本身具有语义歧义性,标注的过程也更加容易产生错误标记。所以,多标记样本不可避免地包含一定量的噪声标记,它们将影响模型的训练,降低模型的泛化能力。针对此类不准确标注的情况,本文旨在缓解噪声标记对模型的不利影响,提高模型的鲁棒性。特别地,本文研究的不准确标注下的多标记学习问题分为两种学习范式:偏标记学习和偏多标记学习。前者的设置为在候选标记集合中有且只有一个是真实标记;后者的设置为在候选标记集合中存在多个未知的真实标记。本文将针对传统多标记学习,偏标记学习,偏多标记学习这三种分类任务提出一个统一的训练框架,其包含两个相互迭代与促进的过程:模型训练和标记置信度估计。在前者中,模型的训练不再静态地使用训练集中的原始离散标记值,而是动态地使用上一次迭代中估计出的标记置信度矩阵,其包含更加丰富的语义信息并能给模型训练提供更加有辨识力的监督信息;对于后者,使用上一次迭代的模型训练结果(模型的输出)和相应的正则项来动态地估计标记置信度矩阵。在此估计过程中,针对上述三种不同的学习范式,本文将设计三种特定的正则项和相应的标记置信度限制条件来满足它们的不同需求:(1)在传统多标记学习中,本文提出基于示例图和标记相关性的正则项来联合限制标记置信度矩阵,而对于标记置信度限制条件,只考虑相关标记的置信度,并扩大整体标记置信度的规模来满足多个真实标记的情况;(2)在偏标记学习中,本文提出使用标记置信度的熵作为正则项,从而使候选标记置信度两极化,即其上的置信度趋向于一个最可能的候选标记,从而有效地进行消歧。由于样本的候选标记中只有一个为真实标记,因此设置候选标记置信度满足一个标准的概率分布;(3)在偏多标记学习中,本文将候选标记分为可信候选标记和不可信候选标记,并提出一个软符号阈值操作来自适应地增加可信候选标记的置信度和减少不可信候选标记的置信度。由于样本的候选标记中存在多个真实标记,则设置候选标记置信度的规模并非固定为1,而是和数据集相关的参数(表示平均真实标记数)有关。通过在人工数据集和真实数据集上的大量实验,本文证明了针对三种学习范式分别提出的三种改进算法的有效性。本文分为5章。第1章介绍三种学习范式的研究背景与现状。第2,3,4章分别针对传统多标记学习,偏标记学习和偏多标记学习提出不同的改进算法。第5章总结本文内容,并讨论本文方法扩展至更多类型的标记情况。
其他文献
目的本研究拟应用两种不同尺寸Fe3O4纳米颗粒的T1-T2双模态MRI对比剂Fe3O4@DOPA(Gd-DTPA)NPs和Fe3O4@PEI(Gd-DTPA)NPs以及肽受体靶向荧光分子探针DCM-KPV分别通过MR及荧光成像评
本文主要研究做市商在多种不同结构信息观察下的连续内部交易模型及相关的几何布朗运动滤波问题。讨论了一些连续内部交易模型的线性均衡的存在唯一性,以及相关金融意义和数
磁流变液作为21世纪的一种新兴智能材料,极具发展前景和应用价值。磁流变减震装置利用了磁流变液的屈服剪切应力可以随着磁场的变化而变化的特性,实现对振动的抑制。磁流变减
深度学习在计算机视觉上的成功应用,使得现在很多方法将深度学习应用在恶劣天气复原任务上,比如说去雨,去雾,去雪,去沙尘等任务。然而目前几乎所有的算法都只能对某一种特定
随着经济全球化、文化多元化和政治多极化的不断发展,各种社会思想交织错杂,必然导致人们的思想受到不同程度的影响。从国际上来看,为谋求发展,国与国之间更强调如何实现经济
在互联网时代,信息的爆炸性增长,促使人们越来越重视海量文本数据的潜在价值。利用或改良现有的人工智能技术,进而从海量文本数据中挖掘潜藏的信息,是当前自然语言处理领域的
人工湿地作为一项污水处理技术,具有高效率、低能耗、抗冲击负荷等优点,在国内外获得了广泛的运用。但是在工程实践中,堵塞成为人工湿地普遍存在的一个问题。本文通过建立垂直流人工湿地模型,探讨了沸石、砾石、陶粒三种填料装置的生物堵塞对污染物去除率的影响及机理。具体研究内容及结论如下:(1)人工湿地生物堵塞过程中的净化能力及微生物种群变化研究结果表明,装置整体渗透系数的下降经历三个阶段:前期缓慢下降、中期大
大卫·施韦卡特(David Schweickart)是美国著名左翼马克思主义学者,西方著名马克思主义理论家,当代西方“市场社会主义”的著名代表人物。施韦卡特一直致力于资本主义批判与
《国家新型城镇化规划(2014-2020)》指出,城市建设用地低效利用、不合理的用地结构与比例失调是必须高度重视并着力解决的突出问题。因此,开展城市建设用地绩效评价,对城市未
支持向量机在小样本数据分类中具有独特的优势,参数的选择对支持向量机的分类精度和泛化能力有着重要的影响,针对当前支持向量机参数优化方法的不足,本文提出了基于改进人工