基于细粒度特征和类别信息对齐的跨媒体检索

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhangyang_8591
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨模态检索作为当前多媒体研究领域的热点,能够满足互联网时代用户在不同媒体数据之间的搜索需求。相比传统的单模态检索,跨模态检索的难点在于不同模态数据的异构性使得它们难以直接比较。随着计算机视觉和自然语言处理中特征表示技术的发展,不同模态数据的特征表示是现阶段跨模态检索研究的关键点。跨模态检索的另一个关键问题就是如何将语义相关的不同模态信息关联起来。跨模态检索的发展除了方法上的研究以外,还有任务难度上的提升。以往的跨模态检索都是建立在粗粒度数据集上,细粒度数据集上的跨模态检索任务仍有待研究。细粒度跨模态检索相比粗粒度跨模态检索的一个重要区别在于细粒度跨模态检索的对象都是属于同一个大类下面的子类,比如鸟类的200个子物种之间的相互检索。细粒度跨模态检索的难点在于较小的类间差异,属于同一个大类下面的相似子类别可能具有相似的全局外观和相似的文字描述。与传统粗粒度跨模态检索相比,细粒度跨模态检索对模型提出了更高的要求。针对跨模态检索问题方法和任务上的拓展,本文的工作内容如下:(1)针对传统的图像文本粗粒度跨模态任务,本文提出了一种基于类别信息对齐的对抗学习方法,利用类别信息生成的嵌入引导不同模态特征在公共子空间对齐,使得不同模态数据特征在共同子空间中能够直接比较。同时本方法在训练阶段采用双向训练的策略,提升模型的表征能力。最后在四个传统的粗粒度跨模态数据集上验证了该方法,结果表明本方法对跨模态检索效果有显著提升,优于现有的方法。(2)在细粒度图像文本跨模态检索问题中,本文提出一种细粒度补充特征的深度网络方法。对于图像和文本分别使用细粒度特征提取工具进行特征提取,然后使用频繁模式挖掘算法提取图像的细粒度补充特征,对于文本则使用双向编码器模型提取细粒度文本补充特征。最后在公共子空间建立过程中引入类别标签损失、图像文本模态匹配损失和中心聚类损失来扩大子空间中类间的差距,减小类内的差异。本文在现有的细粒度跨模态检索数据集上和传统的跨模态数据集上验证了该方法,结果表明优于现有的细粒度跨模态检索方法。
其他文献
近年来,合作行为在多个体交互的群体中如何涌现和维持引起了数学、复杂网络、计算机科学、人工智能、生物学、经济学、社会学等领域学者的广泛关注。虽然之前有大量的工作研究了多人博弈的合作演化动力学,但对多人猎鹿博弈的研究较少。因此,本文根据二人猎鹿博弈建立了多人猎鹿博弈模型,并在不同的框架下研究了该模型的合作演化动力学。本文的主要工作和研究成果如下:首先,在无限混合均匀群体中根据二人猎鹿博弈建立了多人猎鹿
近年来,金属-绝缘体-金属(MIM)结构中发现的电场/电流导致的电阻开关效应(RS effect)引起了研究者的广泛关注。RS效应涉及强场下的电输运等重要科学问题。此外,基于RS效应的电阻型随机存储器(RRAM)具有高存储密度、写入速度快、低功耗等优点,是下一代非易失存储器的有力竞争者。目前对金属和氧化物构成的MIM结构的RS效应研究比较多,研究者们提出了多种机制对实验现象进行解释,包括陷阱控制的
序列预测在交通预测、经济统计、天气预测、粮食产量及能源消耗等领域得到了广泛的应用。在油气勘探中,利用地震数据预测井数据可以视为序列预测问题,利用序列预测算法提取地震数据和井数据之间的关联关系,构建准确的岩性模型对于油气勘探和开发具有指导意义。随着人工智能的发展,越来越多机器学习算法被应用于序列预测中。传统的机器学习算法可以挖掘序列中的非线性关系,但是在复杂的大规模数据中,特征难以准确提取,导致序列
篮球作为一项竞技运动,要求运动员自身能够具备战术意识,这对比赛结果起到至关重要的作用,因此,高校开展篮球教学训练环节时,应重视对学生战术意识的培养,保障篮球训练教学工作目的性更强,促进学生在相关比赛中可以取得更好的成绩。本文针对培养高校学生篮球运动的战术意识进行深入分析,并提出相关教学措施,以供参考。
大肠埃希氏杆菌的外膜具有很高的通透性,允许小分子物质通过膜上的孔结构自由的双向扩散,因此大肠杆菌膜间质蛋白就直接暴露在外界环境条件的波动之下,不断受到诱导蛋白变性、聚集的因素的挑战。根据上面的分析,和现在普遍认可的蛋白在体内折叠、重折叠需要分子伴侣辅助的观点,膜间质蛋白应该受到大量膜间质分子伴侣蛋白的保护以维持膜间质的正常功能。然而,至今在膜间质中没有发现典型分子伴侣的同源蛋白。虽然膜间质中的蛋白
可穿戴心音监测是当前一个新兴的针对心血管疾病的研究课题。然而目前的心音监测装置大多只具备数据存储以及传输功能,且可穿戴应用具有易受干扰,缺乏与之配套的算法来实现对可穿戴应用心音信号的处理。为了解决上述问题,本文设计并实现了针对可穿戴心音监测应用的降噪、分割以及分类算法,主要研究内容如下:1)设计一种针对可穿戴心音监测应用的降噪算法。该算法根据心音信号的特点以及可穿戴应用的噪声特征,结合变分模态分解
科学计算中的大量问题都与如何高效地求解线性系统有关。如流体力学问题、结构力学问题、数据处理、数值天气预报、计算层析扫描、信号处理、电力系统优化设计、图像恢复、高维微分方程求解等问题,大多可以通过高效地求解线性系统来解决。实际上,许多诸如以上工程问题仿真所涉及的线性系统的系数矩阵都具有某些特定的结构,科学利用这些结构特性来构造快速稳健的线性系统解法器是当前的一个研究重点。本文针对两类线性系统(相容或
互联网时代,信息通信技术及其应用发展迅猛。这得益于众多学者的不懈探索与贡献,其中框架理论的研究为该领域的一个重要研究方向。框架于上世纪五十年代被发现,后又被推广到Banach空间和Hilbert空间,此后为适应复杂多变的实际问题,不同类型的框架相继涌现。诸如,g-框架、编织框架、K-框架、融合框架等。本文以K-框架和K-g-框架的性质为研究课题,重点研究K-框架的性质,K-g-框架的构建方法、对偶
经过二十年的蓬勃发展,由于四旋翼无人机低成本、高灵活等诸多特点,在摄影、农业、电力等行业都已得到广泛应用。很多控制算法,例如PID控制、反步控制、鲁棒控制、滑模控制等都有各自的缺点和优点。本课题研究四旋翼无人机的姿态控制方法,结合近年来其他学者对四旋翼无人机的研究成果,对比以上控制理论的优缺点,为了在PID算法的基础上提高系统的抗扰性,提出采用自抗扰控制(ADRC)算法,然后结合模糊控制和卡尔曼滤