引入词向量和注意力增强机制的图像语义理解

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:gf_lucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像语义理解是融合计算机视觉和自然语言处理的一项技术,它可以将图像转化为描述图像内容的语义文字语句,在图像检索、视觉辅助、人机交互等领域有着广泛的应用。不同于图像分类任务,图像语义理解任务不仅需要识别出图像中的物体,还需要识别出物体的动作、属性,理解物体间的相互关系,然后生成合理的图像语义描述。传统的图像语义理解技术基于模板或检索生成描述语句,灵活性差,且需要大量的人力物力,生成的文本质量也不高。近年来,随着深度学习的发展,基于编码器-解码器结构的图像语义理解算法层出不穷,取得了不错的效果,但现有研究方法仍存在描述语句对图像的表述不全面,句子前后单词关联性不强,逻辑性差等问题。据此,论文提出了引入词向量和注意力增强机制的图像语义理解算法,主要研究内容和创新工作如下:(1)针对现有图像语义理解算法存在的对图像局部信息和语义信息利用不充分的问题,提出引入词向量和双注意力机制的图像语义理解算法。算法采用编码器-解码器结构,编码部分利用Res Net-50网络提取图像空间特征,解码部分在长短期记忆网络的输入端和输出端分别引入注意力机制,在解码阶段引入表征语义信息的词向量,实现图像特征到图像语义的变换。(2)针对引入词向量和双注意力机制的图像语义理解算法存在的语义描述不够丰富,对长短期记忆网络携带的记忆信息利用不充分的问题,在引入词向量和双注意力机制的图像语义理解算法的基础上提出基于特征融合和注意力增强机制的图像语义理解算法。在编码部分,将Res Net-50网络提取的图像特征进行融合,选取融合后的特征代替单一特征输入至解码网络,融合后的特征可以更全面的表征图像所包含的信息;在解码部分,将长短期记忆网络在前一时刻的隐藏状态ht-1和当前时刻的隐藏状态th融合后代替当前时刻的隐藏状态th输入到输出阶段的注意力机制中,充分利用了t-1时刻的隐藏状态所携带的记忆信息;另外,对于输入阶段和输出阶段的注意力机制,选取不同的图像融合特征作为它们的输入特征向量,使图像的特征信息得到了充分的利用。综上所述,论文对基于编码器-解码器的图像语义理解算法进行研究和改进,针对传统图像语义理解算法中存在的问题,提出了一些改进方法。实验结果表明,论文提出的算法可以更加全面的识别出图像中的物体以及场景信息,生成的语义描述更加准确、流畅,充分证明了算法的有效性。
其他文献
随着物联网(Internet of Things,IoT)等新兴技术的发展,大量的设备接入到网络中,海量数据的安全有效处理成为亟需解决的问题。云计算往往部署在距离终端用户较远的网络中心,难以满足物联网应用对移动性支持、地理分布、位置感知和低时延的需求。为了弥补云计算的不足,提出了新型的边缘计算模式。边缘计算将云计算扩展到了网络的边缘,可以缩短数据传输的距离,有效降低任务处理时延。然而,边缘节点通常
近年来,随着国家对旅游行业的大力支持和人们物质与精神生活的提高,全国各地旅游景区的规划和开发得到了极大的发展,各地特色景区依靠独特的地理环境、历史文化、古迹建筑等展现自己的魅力,吸引了无数游客到访,对当地经济及文化发展起到了巨大地推动作用。尤其是以历史古城作为旅游重点开发的文化景区,依托历史文化资源得到了消费者的青睐。但值得注意的是,随着古城旅游景区数量的增多,国内现有的古城景区在视觉形象方面出现
量子计算机能够快速地实现并行运算,其数据处理速度远超电子计算机。然而目前量子计算机只能在低温环境下运行,因此低温与室温间的数据传输成为量子计算机研究需要解决的一个重要问题。由于半导体激光器在工作稳定性、能耗以及工作温度范围方面有着突出的优势,有望成为解决上述问题的一个突破点。本论文研究了In Ga As/Ga As/In Ga P量子阱激光器和Ga Sb基量子阱激光器的电学特性以及In Ga As
锶是地壳中含量第15丰富的元素,广泛分布于各种环境中,稳态可溶性锶在陆地和淡水中含量较低,在海水中含量较高。锶和钙是在周期分类上同属IIA族的碱土金属元素,二者具有相似的化学特性。因此,锶虽然不是植物生长和发育所必需的元素,但很容易被植物吸收。所以,锶是植物性食品的天然组成部分。锶是人体必不可少的微量元素,但在植物中,锶一直被看做是有毒的污染物。目前,有关锶的植物学研究主要集中在“锶(包括放射性锶
动物园是专门饲养各种动物以进行保护、研究、教育及兼具休闲的公共场域,又有野生动物园、城市动物园、专类动物园以及地域性动物园等多种类型,分别承担着不同的社会功能。其中,城市动物园是建设在城市中圈养各种野生动物的场所,它对人们了解动物、亲近动物起着重要的作用,是寓教于乐的重要课堂,也是城市文化建设的重要标志之一。在动物园的建设和发展中,品牌视觉形象作为其视觉名片对吸引参观者、扩大社会影响、提高经营效益
当赝量子点材料具有结构反演不对称性时,电子自旋和轨道运动的相互作用即会引起Rashba效应,从而导致赝量子点的束缚极化子能级简并部分被消除。同时赝量子点的极化子性质也易受到温度、压力等外界因素的影响。因此对赝量子点系统中Rashba效应影响下束缚极化子的低能态性质、以及温度对其性质的影响进行研究是很有必要的。本文主要对Rashba效应下赝量子点束缚极化子的低能态性质进行了研究,同时还研究了Rash
在控制理论快速发展的今天,不断有新的控制算法理论提出,并将新理论应用到实际当中,将理论与实际相结合。在非线性控制理论突飞猛进的同时,不同的应用环境也对控制策略提出要求,各种控制策略都有自身的局限性。磁悬浮技术自被学术界提出之后,就备受研究人员的青睐,该技术在交通,电力等行业有着广泛的应用前景。但由于磁悬浮系统其自身的非线性和开环不稳定性,在对其设计控制策略时,不能直接采用严格的状态反馈和输出反馈。
近年来,我国公路里程数和居民汽车保有量激增,带来了严重的交通问题。道路交通标线作为现代智能化交通的重要一环,在缓解现存交通问题方面发挥着不可替代的作用。公路的不断建设和原有交通标线的老化,带来巨大的交通标线喷涂工作量。目前,我国采用手推式和乘驾式标线设备,自动化程度低,喷涂效率低,需要工人实时控制设备的喷涂方向,喷涂效果容易受主观因素的影响。在喷涂不规则标线时,操作工艺更为复杂。因此,研究一款可以
近年来,低维铅基卤化物由于具有灵活的结构可调性,简易的制备方法,高的载流子迁移率以及高的光致发光量子产率(PLQE)等优势,在发光二极管,太阳能电池等领域得到了广泛关注。其中,低维铅基卤化物由于其固有的宽带发射特性,在制备白光发光二极管(WLED)方面具有重要应用。本文主要以有机阳离子的结构导向作用为指导,选用不同种类的有机胺作为阳离子,以氯化铅或溴化铅作为光学活性中心,合成出低维有机-无机杂化卤
带式输送机在港口煤炭转运过程中扮演着极为重要的角色,带式输送机长期处于高负载的连续运输状态,经常出现托辊卡死、皮带撕裂、滚筒损坏等故障。目前,主要采用单一传感器检测带式输送机的故障信息,而单一传感器在信息采集过程中存在模糊性、不全面性和精确性低等问题。针对这一问题,本文选择采用多传感器信息融合技术进行带式输送机故障诊断研究。论文的主要研究内容如下:通过分析带式输送机的常见故障,选用声音传感器和红外