基于多模态信息的物体间关系检测研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:hydhdhfdhsdh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,人们的日常早已和互联网密切相关,每天有海量的数据产生,数据的模态呈多样化趋势。如文本、图像等多模态数据的爆炸式增长,使用户很难有效地从中获取有价值的信息。因此,研究如何从大量多模态数据中提炼有效信息,并刻画多模态信息间关联有极其重要的意义。传统的信息抽取通常是从无结构的初始文本中抽取出结构化、半结构化和非结构化的数据,再将这些数据信息储存到结构化的数据库中,方便用户的使用。这种方式早已无法满足如今针对海量多模态分析的需求。近年来,深度学习在计算机视觉和自然语言处理方面的研究都取得了突破性的进展,推动了基于多模态信息的物体间关系检测研究的快速发展。为此,本论文通过研究基于多模态信息的物体间关系检测,为跨模态知识图谱的构建提供理论依据。具体而言,论文首先设计基于关系三元组的视觉关系检测模型;在上述研究基础上提出了文本描述协助的跨模态关系检测模型;最后利用跨模态关系检测模型搭建跨模态知识图谱。论文的主要创新工作如下:(1)本文提出了一种基于目标检测与多特征融合的视觉关系检测模型。所提模型将视觉模块、语义模块以及损失计算构建为一个端到端的多支路并行协作网络。其中视觉模块借助目标检测获取视觉特征并且预测目标类别;语义模块通过使用外部语义库提取目标语义特征;在损失计算模块中,所提模型联合基于语义表征的softmax三元损失和基于视觉特征的三元损失,引导视觉以及语义模块彼此交互“共现”信息。通过在公共多模态Visual Genome数据集上进行实验,验证了所提网络的优势。(2)考虑到单模态信息抽取获取的实体关系具有多义性高、表述力不强等不足,本文在视觉关系检测模型的基础上进一步构建了一个跨模态关系检测网络架构。所构建的跨模态关系检测网络引入文本表述分支,将文本编码与视觉特征提取动态融合,通过设计文本-视觉交互损失函数引导文本以及视觉信息最大化彼此的共性,这可有效提升关系检测模型在复杂场景下鲁棒性。(3)本文提出了跨模态知识图谱构建新范式,通过将跨模态关系检测与跨模态知识表征相结合,构建跨模态知识图谱(Cross Modal Knowledge Graph,CMKG)。具体而言在联合跨模态关系检测与跨模态知识表征的过程中,着重研究如何不需要额外辅助工具即可获取精准的跨模态知识三元组。区别于传统单一模态知识图谱,所构建的CMKG旨在为多模态知识检索提供一种更为可靠的结构化多模态知识存储及表征方式。
其他文献
配电设备作为电网系统的重要组成部分,其运行状态直接影响配电网系统的可靠性。随着泛在感知技术在配电网系统应用的快速推进,配电设备监测数据量急剧增加,同时随着电力系统技术水平的不断发展,异常数据相对于正常运行数据的占比不断降低,加剧了监测数据类簇规模不均衡的程度,使得配电设备运行状态评估异常特征的提取更加困难。本文充分考虑类簇规模不均衡所带来的影响,提出了考虑类簇规模不均衡的动态增量式聚类算法,改善了
学位
近年来,圆偏振发光(CPL)有机光电材料由于其独特的光学性质已成为发光材料领域新的研究热点,在光学量子信息、光学自旋电子学、手性传感、生物成像、光学数据存储、3D显示等领域具有广阔的应用前景。CPL能够选择性地发射出具有差异的左旋和右旋圆偏振光,目前关于CPL有机光电材料的研究主要包括手性金属配合物、小分子、高分子和超分子自组装等。实现有机光电材料的CPL发光较为复杂,根据不同的发光类型可以分圆偏
学位
非线性系统在实际工业应用中广泛存在,如机械手和电力系统等。在一类非线性系统中,单输入单输出系统、多输入系统、严格反馈系统以及多智能体系统都为典型的研究对象。针对单个系统,从仅考虑一个输入的系统,扩展到多个输入的系统,然后是特殊的严格反馈系统,这样单个系统的复杂度逐渐增加。然而,单个系统无法实现复杂的控制任务,需要将单个系统扩展到更为复杂的多智能体系统。学位论文针对一类非线性系统,利用自适应动态规划
学位
在5G时期,由于移动通信的高速发展,频谱资源显得更加短缺。为适应飞速增加的移动服务要求,人们已开始寻求既能满足体验要求又能提升频谱效能的新型移动通信技术,在这个背景下,非正交多址接入(Non-Orthogonal Multiple Access,NOMA)技术引起了人们巨大的兴趣。NOMA技术主要分为两类:功率域复用和码域复用。功率域复用NOMA彻底改变了以前在功率域由单个用户独占资源的方式,明确
学位
等离激元纳米粒子的消光特性研究具有广泛的应用前景,这一特性受到纳米粒子的结构、材料、入射波的入射角度、波长等元素的影响。在实际应用中,会经常关注不同入射方向的消光特性,电磁数值仿真方法不仅能够适用于大部分情况,并且计算结果的精度能够满足工程研究需要,因此被广泛使用。其中,矩量法和有限元-边界元方法是两种高效的电磁数值仿真算法,前者基于边界积分方程,能够高效地计算均匀材料的纳米粒子,且十分适合分析开
学位
自从蛋白质的α螺旋和DNA的右手双螺旋被发现以来,研究人员聚焦于螺旋系统的合成与构建,以努力模仿天然螺旋体的复杂结构和功能。将分子尺度的手性转化为自组装结构中的宏观螺旋性,进一步加深对手性的基本理解,拓展光、电、磁等方面的应用是一项有趣的科学挑战。为应对这一挑战,模块化的自组装分子体系作为一种强大且有前途的合理设计方法被提出,用来生成具有不同形貌和功能的手性超分子结构。其中,选择富电子给体材料和缺
学位
目的:探讨重度喉软化症患儿的临床特点及影响手术疗效的因素。方法:回顾性分析2015年1月-2019年5月在重庆医科大学附属儿童医院进行声门上成形术的重度喉软化症患儿的临床资料,探讨重度喉软化症患儿的临床特点,评估术后不同时期主要症状的改善情况,分析手术年龄和医学共病对手术疗效的影响。结果:在重症喉软化的解剖分型中,Ⅳ型所占比例最高(37例,66.1%),Ⅰ型最少(2例,3.6%);所有患儿均存在喉
期刊
微波滤波器、双工器等无源微波器件作为通信系统的前端,在无线通信领域起到了重要的选频作用,拥有广阔的应用场景。为了满足在高频段通信的需求,本文以基片集成波导(SIW)为研究主体,利用基片集成波导的性能优势,结合耦合理论和双模技术,设计了几种新颖的滤波器和双工器,并且具有低成本、小尺寸、高工作频率、高集成度等优势。本文的主要研究工作可概括为:1.提出了基于封闭式Patch与折叠式SIW混合模式的低损耗
学位
光激发停止后具有持久发光的有机长余辉材料在存储、安全、显示和生物等诸多领域发挥着巨大作用,一直受到研究人员的重点关注。二维金属卤化物钙钛矿由于其结构多变,具有极强的组分可调节性,较低的缺陷密度和光吸收能力,且激子种类可调节,在实现有机长余辉发射方面具有显著优势。但是目前为止,具有高效率长寿命余辉特性的二维金属卤化物钙钛矿种类较少,且余辉颜色较单一。本论文通过调节二维金属卤化物钙钛矿无机层的组成和结
学位
近年来,高速铁路、高速公路里程的增加使得人们工作、休闲、出行的时间大幅缩减,同时引发了人们对高速移动场景下无线通信的关注。然而,在第五代移动通信技术(5th Generation Mobile Communication Technology,5G)支撑的高速移动环境中,更高的车载速度、更频繁的切换和更宽的带宽使得高速移动通信系统的设计更具挑战性。因此,需要高质量的无线通信技术来支撑未来高速移动场
学位