基于深度学习的图像描述系统的构建与性能评价研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:q6748799
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是图像识别和自然语言处理相结合的方向之一,图像描述的研究非常具有现实意义,它是机器人进一步拟人化的关键,为机器人记忆与感情方面提供了研究基础。另一方面图像描述可以帮助有视觉障碍的人士理解报纸、说明书、地图软件等有关图像的内容,也可以利用在早教育儿和医疗保健中,代替人工看护和繁琐的重复任务。但是目前大多数图像描述的研究从整体结构出发,导致丢失图像部分对象,并且现有的图像描述中仅注重对象描述,忽视了很多场景和对象的重要方面有关的细节,缺少画面感。针对上述问题,本文提出了一种新的基于深度学习的图像描述系统体系结构,分为多标签提取网络和图像描述生成网络二级联模型,其中多标签提取网络(称为SOMNet)由三个子网络组成:(1)场景分类网络(SNet), (2)对象类标签学习网络(ONet), (3)多属性标签学习网络(MNet),而图像描述生成网络由两个循环神经网络组成的编码器-解码器构成。
  本文提出系统的特点有以下几个方面:
  (1)相对于整体结构,本文提出更精细的结构化图像描述系统,将场景标签、对象类标签和对象属性标签分别单独构建分类系统,然后将众多标签送入基于循环神经网络(Recurrent Neural Network, RNN)的图像描述生成网络中生成图像描述,该系统能更多的抓捕图像细节,保证准确度的同时,生成更长、更有描述性的句子;
  (2)相对于单标签学习,即对每个属性分别训练神经网络,本文提出的多属性标签网络,考虑到人属性和物体属性的特性,设计了人属性标签预测和物体属性标签预测分别共享卷积神经网络层,仅在最后全连接层中分别训练适应于人和物体的不同属性的支持向量机,提高了预测精度的同时,极大减少了属性单独训练的成本;
  (3)相对于常用初始化损失权重的方法,带来的梯度消失或弥散导致不收敛的问题,本文提出了一种有效的损失权重方案,该方案充分利用数据集中属性标签之间的相关性,显着提高所提出方法的泛化性能。
  最终实证结果表明,所提出的系统有着优秀的性能,并且在几乎所有评估指标上都优于最先进的相关研究。特别是,所提出的系统在处理跨域室内场景图像时比现有方法显示更好的优越性。
其他文献
结构决定了森林群落的稳定性和发展态势。森林群落以木本植物为主体,对木本种群结构进行研究可以阐明种间关联、揭示物种共存的潜在生态学机制以及推测群落的演替动态。细叶云南松(Pinus yunnanensis var.tenuifolia)曾经是我国西南地区南盘江流域典型的优势种群,但数十年前(大约1956-2000年)它遭受严重的人为破坏,生境不断缩小和破碎化,原始林彻底消失,种群数量持续减少。目前它
在长期的自然选择中,动物进化出灵活的代谢策略以应对复杂多变的环境条件,对野生动物代谢策略了解不仅可以增加动物适应环境策略多样性的理解,还可以为濒危野生动物保护策略制定提供技术支持。川金丝猴是分布在高海拔针叶林中的一类濒危灵长类动物,栖息环境温度、食物季节性变化幅度大,了解川金丝猴的代谢策略具有非常重要的意义,然而,由于取样困难,特别是对于野生濒危动物的取样非常困难,因此川金丝猴在自然环境中的能量代
学位
电力工业是国民经济发展中最重要的基础能源产业,而我国的发电以燃烧化石燃料为主。随电力行业的发展,煤炭的消耗量在未来较长的一段时间内将持续走高,NOX排放量也会逐渐增加。NOX的生成会对生态环境造成严重的破坏。因此,控制NOX的排放是我国迫在眉睫的问题。NOX的生成机理分为:燃料型、热力型和瞬时型。根据NOX的生成机理,国外开发出了多种低NOX燃烧技术。由于国内煤质特殊情况,燃烧器不仅要能有效的抑制
学位
纳米TiO2是一种重要的工业粉体材料,有着广泛的用途。它特有的光学物理性能和光化学性质一直受到科学界的广泛关注。纳米TiO2具有优良的光催化活性,能分解大气和废水中的有机物与部分无机物,可作为大气和废水的净化剂,废塑料的降解剂,以它作为功能性材料的应用将会对建材、环保、能源、催化材料产业带来巨大的影响。本文以现代家居生活中常见的有害气体之一的甲醛作降解对象,以其光催化降解率和计算求得一级反应速率常
学位
伴随着对可再生能源应用的迫切需求,人类不断探索对太阳能的开发与应用,作为太阳能发电应用的重要组成部分,各种规模的光伏电站陆续投入使用。随着光伏电站的长期运行,其发电主要载体光伏组件逐渐暴露出很多故障问题,其中热斑故障因其不仅影响光伏组件发电量还会引起组件温度过高伴有火灾隐患而成为最受关注的光伏组件故障问题之一。了解热斑故障的形成机理、发热影响以及在光伏系统正常运行时迅速诊断出热斑故障并评估它的发热
电驱动系统作为新能源汽车的主要动力源,其控制性能直接影响新能源汽车的动力性、经济性与安全性。永磁同步电机(Permanent magnet synchronous motor, PMSM)因其结构简单、体积小、效率高、功率密度高等优点,在电动汽车电驱动系统等领域获得了广泛应用。为此,论文将围绕PMSM驱动系统中稳态控制性能提升及开关损耗降低等亟待解决的关键技术,重点开展调制无模型预测控制、基于最小
冲突解决是认知控制最重要的能力之一,其常与健康人群的社会成就,自我控制以及大脑神经和精神疾病患者认知功能损伤相关。Flanker任务是实验室考察冲突解决的常用范式,在Flanker任务中冲突解决很大程度上依赖于视觉空间注意力系统对空间注意力的调控,而偏头痛患者前庭感觉缺失导致了负责处理空间信息的大脑区域的功能变化。因而,深入研究冲突解决的神经机制,除了对于基础心理学与神经科学理论至关重要外,还能帮
学位
运动目标检测和跟踪技术是机器视觉的热门方向之一,是在图形处理的基础上慢慢形成和发展起来的。在无人机、空空导弹等目标检测和跟踪领域具有极其重要的作用和需求;在行人车辆检测跟踪上也有着广泛应用。在这些应用场景中,ARM嵌入式设备相比FPGA有功耗低、易集成开发、成本低和程序易移植等优点。克服移动目标检测和跟踪时所遇到的背景更新、背景干扰、目标尺度变化和目标遮挡等问题,并在嵌入式设备上进行准确稳定的实验
学位
无线携能通信同时传输信息和能量信号,提高了频谱效率和能量利用率,越来越受到学术界和工业界的关注。无线携能传输使得有限电池能量供应的移动设备能同时解码信息和收集能量,这将极大提升移动设备的性能和应用范围。随着无线传感器和无线发射接收机变得越来越小和更加高能效,无线携能通信技术有望广泛应用于分布式的移动终端设计。  由于无线信道的开放性,无线携能通信可变、可控的覆盖范围,可以相应地改变发信者、收信者、
随着新课程改革和美育的发展,音乐教师作为学校美育教育的中坚力量,专业化要求越来越高,音乐教师的专业化发展对于学校音乐教育的发展有着极其重要的意义。乡镇音乐教育一直是我国基础教育中的薄弱点,乡镇音乐教师的专业化发展,是一个具有重大意义的研究课题,对促进乡镇音乐教育的发展影响深远。《教师专业标准(试行)》中将教师的专业化明确为教师的专业理念与师德、专业知识、专业能力三个维度的专业化,本研究以汉寿县2乡