多义性机器学习中的标记嵌入方法研究

来源 :东南大学 | 被引量 : 1次 | 上传用户:a2590222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因为在处理有问题的标记和捕获标记之间的高阶相关性上的有效性,标记嵌入(LE)已经被成功应用在很多领域。LE会先将原始标记嵌入到一个新空间,然后再学习从特征到嵌入标记的映射。最后,LE通过解码器将预测的嵌入标记恢复到原始标记空间。LE在多标记学习(MLL)领域已经成为一种经典算法。但是,在学习嵌入标记时,大部分现有的LE算法时要么完全忽视来自特征的信息,要么直接地使用原始特征来作为指导信息。前者会损失很多特征中有利于后续学习过程的信息;而对于后者,当原始特征本身存在诸如噪声、信息冗余等问题时,直接将它们作为指导信息将对嵌入结果产生消极影响。本文提出,标记嵌入应该和特征嵌入同时进行,而且两者的嵌入过程是相互联系的、相互指导的,并且一个空间的嵌入过程由另一个已经被很好处理过的而非原始的空间来指导。基于这种思想,本文为MLL提出了一种新颖的嵌入算法——紧凑多标记学习算法(CMLL),它可以同时学得标记和特征的低维表示。具体地,CMLL最大化嵌入标记空间与嵌入特征空间之间的依赖性,同时最小化标记空间的恢复损失。相比于只专注单空间的大部分嵌入算法,实验结果显示了CMLL的优越性。本文的第二个工作是将标记嵌入应用于标记分布学习领域。标记分布学习(LDL)非常适用于一些关注整体标记分布的应用,在LDL中,每个标记对应一个实数来表示它对实例的描述度,并且所有标记的描述度满足加和为1的概率完整性约束。但业已提出的绝大部分LE方法都只关注二值标记,因此并不适用于LDL。针对LDL中标记的特殊约束,本文为LDL专为设计了一个新颖的标记嵌入算法——多尺度局部保持标记嵌入算法(MSLP)。MSLP从不同的局部粒度联合考虑了数据在标记空间以及特征空间的局部信息。同时,MSLP显示假设了从特征到嵌入标记的映射,使得在完成标记嵌入后,不再需要一个额外的从特征到嵌入标记的映射学习过程。此外,对于一些由于外在噪声而导致的违背了平滑假设的样本,MSLP也有很好的鲁棒性。实验结果显示MSLP优于现有的大部分LDL算法。
其他文献
在大坝建设过程中,孔口结构常常是温控防裂工作的关键部位。孔口部位通常采用高标号混凝土,水化热、自生体积变形及弹性模量大,导致其早期应力增长较快,而周边坝体往往采用低标号混凝土,材料特性的不同,导致孔口部位易产生表面裂缝,若处置不当,表面裂缝往往发展成为危害性裂缝,危害孔口甚至大坝的安全。因此,针对孔口这种大坝中的特殊结构,研究其在施工期温度发展历程并采用合适的温控措施就显得至关重要。为此,作者在白
随着输电线路增容扩容的发展碳纤维导线应运而生,其在电气和机械性能方面具有诸多优异性能,但碳纤维复合芯径向耐压性、柔韧性较差在张拉载荷下过滑车架线施工、导线压接、卡线器夹持时易发生损伤,这对导线后期安全性服役具有巨大影响。本毕业论文以JLRX1/JF1B-400/35型绞合型碳纤维复合芯导线和JLRX1/F1A-550/45型棒状碳纤维导线为例建立导线三维有限元模型分别考虑材料弹塑性、摩擦接触等问题
面对世界百年未有之大变局,顺应全球经济发展和税制改革的新趋势,我国在2019年《政府工作报告》重磅推出规模空前的2万亿大规模减税降费政策。政策实施以来,减税降费各项工作取得积极成效。但是,由于本轮减税降政策覆盖面广、涉及多税种、税费一体、力度规模空前等方面的特殊性,在减税降费不断推进的过程中,一些困难和问题也随之显现出来。2020年中央经济工作会议提出巩固拓展减税降费成效的要求,加之新冠肺炎疫情影
由镰孢菌引起的小麦赤霉病是世界范围内麦类作物产区广泛发生的一种病害,不仅会导致小麦产量下降,其产生的毒素还会影响粮食品质,危害人畜健康。我国引起小麦赤霉病的群体主要以禾谷镰孢菌(Fusarium graminearum)和亚洲镰孢菌(F.asiaticum)为主,为了探究小麦赤霉病菌F.graminearum和F.asiaticum群体分布与温度的关系,温度和杀菌剂同时作为选择压对病原菌的影响,本
目的:统计糖皮质激素性骨质疏松症(GIOP)患者的中医证型分布规律及特点。方法:收集在2012年9月1日至2014年12月31日在我院住院的GIOP的患者病历,参照中医证型相关标准,以患者
随着计算机软硬件技术的发展,3D动画技术因其简便、高效、更具表现力的特点得到越来越广泛的应用。在二十世纪九十年代,中国科学院陆汝钤院士提出全过程计算机辅助动画自动生
未明协议的发现与流量分类是网络流量分类的一个分支,旨在从海量的网络数据中发掘出新的协议和应用,并对多种协议的混合数据进行分类。相比于已明协议,未明协议具有协议规范
近年来光伏发电已经成为最常见的太阳能利用方式,并且随着能源革命的进行在世界各国范围内被广泛应用,因此全球光伏的装机容量迅猛增长。但是光伏电站的运维问题随之而来,因为太阳能资源本身的能量密度较低难以集中收集,所以光伏电站往往需要很大的占地面积才能对太阳能进行有效接收,装机的组件数量也十分庞大,这让电站高效的运维变得十分困难。同时,光伏电站一般安装在荒漠、山地等土地资源较差的自然环境中,需要长期面临户
随着互联网技术的飞速发展,各行各业都在使用信息化的手段来判断行业趋势,指导行业发展。各应用领域在信息化过程中所产生的数据也呈爆炸式增长。如何从这些数据中发现有价值
工业控制系统的正确可靠对经济发展、人身安全和社会稳定有着重要意义。工业控制系统面对的一个基本问题是控制中的时序问题。如何从时序规约(specification)自动生成满足该