融合场景因素和对象间关系的图像字幕生成方法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:wubo_sz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能化进程的发展,计算机对图像的处理变的越来越精细,简单的识别出图像中的物体和对象已经不能够满足人们日益增长的生活需求,计算机不仅需要识别出图像中的内容,并且需要将之转化为文本描述。图像字幕生成任务已成为图像处理中的一项高级任务,在图像自动化检索、图像标注、视觉障碍者的日常辅助等领域中应用广泛。图像字幕生成,本质上就是根据输入的一张图片,生成相对应的描述,类似于“看图说话”,因此,生成的图像字幕越贴近图像内容,和人类描述越相似,它的生成性能就越好。但图像字幕生成目前还存在着生成的图像描述不准确、不丰富、无法准确表达出图像中对象间关系等问题,因此,针对以上问题,本文主要在以下三个方面作出了创新和改进。(1)在图像特征提取方面,基于现有的图像字幕生成方法采用卷积神经网络提取的图像特征不准确、不丰富、无法准确表达出图像中各个对象间关系的问题,本文提出了基于多通道注意和对象间关系的图像特征提取方法,引入多通道注意力加强语义关注,将每个卷积核都作为一个语义检测服务器,根据上下文语义在两个卷积层上进行通道注意,使计算机关注图像中语义特征明显的区域;另一方面,为了更好的识别出图像中对象间的相互关系,本文引入图卷积网络获取图像中对象间的相互关系,通过构造它们的空间交互网络,以实现对图像中空间关系明显区域的重点关注,从而提取丰富的图像特征。(2)在文本特征提取方面,针对大多数研究没有充分利用图像数据集中语料信息的问题,本文提出了引入语料库先验知识的方法,通过对语料库进行LDA(文档主题生成模型)分析,提取语料库场景信息,再通过多层感知器的训练,为每个图像生成一个场景向量,从而利用多模态信息补充了图像信息获取的不足,有效解决了图像中不同场景因素造成的语义歧义等问题。(3)在文本描述生成方面,针对单向LSTM网络无法充分利用图像特征、句子上下文信息的问题,本文提出了基于注意力的双向LSTM模型,将上述提取的图像和文本特征分别输入前向和后向的LSTM网络层,使每个句子在生成过程中重点受到前一个句子中语义明显单词、场景的影响,有效提高了模型生成句子的准确性。最后,本文将提出的模型在三个公开的数据集上进行实验,并进行广泛的评价,最终,BLEU1指标获得了和基础模型相比10.3%的增幅,在CIDEr-D评价指标上获得了将近17%的增幅。实验结果表明,本文提出的方法能够有效的识别出图像中对象间的相互关系、图像场景等关键信息,在多个评价指标上获得了较大的提升。
其他文献
目的 观察大剂量骨化三醇治疗血液透析继发性甲状旁腺功能亢进(SHPT)患者的临床效果,为临床提供理论参考。方法 选取2020年1月—2021年1月于广东省深圳市前海蛇口自贸区医院行血液透析SHPT患者40例,根据随机数字表法分为观察组和对照组各20例。观察组采用大剂量骨化三醇治疗,对照组患者采用常规剂量骨化三醇治疗,1个月为1个疗程,2组均连续用药3个疗程。比较2组临床疗效,治疗前后甲状旁腺体积、
期刊
目的:分析小剂量骨化三醇对维持性血液透析(MHD)患者骨保护素(OPG)的影响。方法:选取90例MHD患者开展随机对照试验(RCT),采用随机数字表将纳入对象分为两组,基础组予以基础支持治疗,研究组在基础组方法治疗的同时采用小剂量骨化三醇治疗,共3个月。对比治疗前后血清OPG水平、骨密度T值变化,治疗期间骨质疏松症发生率及不良反应。结果:治疗后研究组血清OPG水平较治疗前升高(P<0.05),基础
期刊
目的 系统评价骨化三醇对维持性血液透析(MHD)患者微炎症及钙磷代谢的疗效。方法 计算机检索万方、中国知网、中国生物医学文献数据库、维普网中文数据库,以及Pub Med、Cochrane Library、EMBase外文数据库关于使用骨化三醇对MHD患者微炎症状态及钙磷影响的随机对照试验(RCT),检索时间为建库至2022年3月。治疗组以骨化三醇为干预措施,对照组给予常规治疗或安慰剂,采用Rev
期刊
2013年修订的《商标法》增加了第五十九条第三款,规定未注册的有一定影响的在先使用商标在原使用范围内的继续使用,不侵犯注册商标专用权。此条款将在先使用商标继续使用的范围限制在原使用范围,限定使用范围的法理基础在于在先使用人善意的商标使用行为,以及由此建立起良好的商誉。对原使用范围的认定影响着在先使用商标和注册商标之间的利益平衡,同时也影响着消费者利益。然而由于没有细化的规则和系统的论证,理论和司法
学位
近年来,信息网络的高速发展使网络中文本数量呈指数级增长,为了能够快速地在海量文本中寻找有价值的信息,文本挖掘技术也随之迅速发展。其中,自动文本分类技术不仅为文本处理研究的热点,在实际场景中应用也最为广泛。目前常用的文本分类模型使用词嵌入模型加单一神经网络(如:Word2vec+LSTM),虽然能够在普通文本分类中取得较高的分类精度,但是在内容相近的模糊文本分类中效果却不太理想。因为此类模型中用静态
学位
随着高铁的快速发展,建筑的日益增加,高铁站房的建设需求日益增加。高铁站房工程所涉及的专业多,施工难度大,工序复杂,利用BIM技术将高铁站房建设通过BIM平台构建完整的施工流程预演,有助于协同施工各专业之间的信息沟通,提升建设速度与建筑质量,有利于施工人员把握施工的进程与控制,进一步提高高铁站房的信息化管理水平。
期刊
经济的发展离不开知识生产和人力资本的积累,技术创新在促进国家经济高质量发展中的地位也越来越重要。创新研发的不断进步为我国经济的稳中求进提供了坚实的基础。但是与发达国家相比,我国的科技发展还处于相对落后的局面,为此,早在2006年,我国就提出了“创新型国家”的发展目标。之后在党的十八大报告中又近一步明确了创新驱动发展的战略,为我国的企业和社会发展指明了前进的道路。企业是我们国家创新发展的主力军,充足
学位
数字平台企业作为数字经济最主要的组织形态,因其独特的竞争属性和垄断倾向,受到了国内外反垄断执法机关的重点关注。就目前实践而言,我国反垄断执法机关在对数字平台企业的反垄断监管中引入企业合规机制,通过发布合规指引、进行行政指导等柔性推进模式,来推动企业反垄断合规,一定程度上规范了数字平台企业的垄断行为。但由于国内反垄断合规制度建设尚处于探索中,不可避免地存在合规激励动力不佳、法律依据不足、合规整改有效
学位
信用惩戒是我国社会信用建设的核心制度,也是行政主体进行信用治理,社会治理方式的新范式。认定存在失信行为是实施信用惩戒的前提。当前理论界和实务界对失信行为认定不乏启人思考的研究,但也不是无懈可击。理论上,对于失信行为认定的研究不够深入且过于简单,存在留白,未能有效指导信用治理实践。实务中,认定失信行为的法律依据位阶过低,各地做法不一且缺乏信用关联性,认定标准模糊守法、履约和道德规范之间的界限,对失信
学位
目前地震勘探技术在地球物理学领域占据重要的地位,是油气资源勘探中重要的技术支撑。由于地理因素和经济因素的影响,采集方式的不同会造成地震数据的缺失,这会导致地震资料解释过程十分困难,因此地震数据重建过程尤为重要。本文是以地震数据重建实际问题为导向,以地震数据物理场规律作为课题出发点,旨在提高地震数据重建的精度和速度。首先,从地震数据物理场背景出发,根据三维地震数据建立的块Hankel矩阵的低秩特性,
学位