基于深度学习的图像语义标注与描述研究

来源 :广西师范大学 | 被引量 : 7次 | 上传用户：kabasiji2

【摘要】

：

随着信息科学技术的高速发展,伴随而来的是多样的媒体数据飞速增长,这得益于数字设备的普及和存储技术的发展。面对大量无标签数据的产生,如文本、音频、图像及视频等,如何管

【作者】

：

郑永哲

【机构】

：

广西师范大学

【出处】

：

广西师范大学

【发表日期】

：

2017年01期

【关键词】

：

图像标注卷积神经网络语义学习循环神经网络双向长短时记忆单元图像描述

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息科学技术的高速发展,伴随而来的是多样的媒体数据飞速增长,这得益于数字设备的普及和存储技术的发展。面对大量无标签数据的产生,如文本、音频、图像及视频等,如何管理和使用这些无标注数据,俨然成为一个亟需解决的问题。当前的图像语义标注技术可以有效地对图像进行标注,这不仅能够帮助人们管理大量的无标记图像,还能够让机器更智能的理解图像,所以图像语义标注是一项非常有意义的研究工作。所谓图像理解技术,其核心技术是在图像处理分析基础上,结合计算机视觉和自然语言处理等相关理论,进而分析、理解图像内容,并以文本语义信息的形式反馈给人类。因此图像理解技术的完成不仅需要图像标注,还需要图像描述。图像标注的任务是以图像为对象,语义信息为载体,研究图像中有何物体以及物体之间的联系。图像描述的任务是以自然语言处理技术分析并产生标注词,进而将生成的标注词组合为自然语言的描述语句。近年来,图像描述得到了研究界的极大兴趣,同图像标注工作一样,它们都具有广阔的应用前景。论文以图像语义标注为研究主线,以多媒体数据中的图像作为研究对象,以图像描述为应用扩展,按照特征提取表示-语义映射模型构建-分析理解语义的研究思路,重点研究图像标注中的目标识别和语义分析问题,其中包括特征学习、多标签分类、语义关联性分析和单词语句序列生成等技术。基于以上研究,本文的主要工作有:为了缩减不同模态数据间的语义鸿沟,提出了一种基于深度卷积神经网络(Deep Convolutional Neural Network,CNN)和集成的分类器链(Ensembles of Classifier Chains,ECC)的图像多标注混合架构CNN-ECC。该模型框架主要由生成式特征学习和判别式语义学习两阶段构成。第一步利用改进的卷积神经网络学习图像多示例融合的高级视觉特征。第二步基于获取的视觉特征与图像的语义标签集训练集成的分类器链,集成的分类器链不仅能够学习到视觉特征包含的语义信息,还能够充分挖掘语义标签间的关联性,使得生成的标签间具有更强的关联性,从而避免产生冗余的标签。最终利用训练得到的模型对未知的图像进行自动语义标注。图像标注为图像描述工作奠定了基础,为了将图像生成的标注词组装成自然语言的语句描述,提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)和双向长短期记忆单元(Double Long-short Term Memory,DLSTM)的图像描述模型 CNN-DLSTM。该模型框架由视觉模型和语言模型两部分组成。首先视觉模型用于学习图像视觉内容概念,生成图像关键语义词。其次语言模型基于人工的描述序列学习词法与语法,结合视觉概念词和相应的语法生成对应的语言描述,完成图像描述任务。为了使模型生成的语句更加类人化,最后CNN-DLSTM还引入了一个生成描述质量的置信评估模型,选择性输出得分更高的图像描述语句。图像的内容不仅复杂而抽象,而且在语义概念上也存在模糊和多义性等特点。因而本文在图像标注的特征学习、语义学习等关键工作上做出改进,实现图像自动标注,改善了图像标注及描述性能。

其他文献

一种单点登录认证模型的设计及应用

随着企业信息化建设的不断发展，企业内部应用系统也不断的增多，而用户使用这些系统需要频繁的进行登录认证，这样不仅影响了用户的工作效率，也给系统带来了许多安全隐患。本文针对

学位

单点登录公钥基础设施授权管理基础设施票据

基于粒子群和帝国竞争混合算法的云计算任务调度策略研究

云计算使用虚拟化技术将各种计算、存储、网络宽带等实体资源整合成一个共享的云服务资源池,再通过任务调度算法为用户提交的任务分配资源。任务调度算法是云计算中最重要的

学位

云计算任务调度粒子群算法帝国竞争算法

微博客主题分类的特征扩展方法

近些年来随着互联网高速发展，使得互联网中的文本问题呈现向海量化发展的趋势。于此同时，文本分类技术这种处理文本数据的关键技术也随之向海量数据处理方向转化。原来的文本分

学位

微博客特征扩展噪音消除文本分类

基于IBM TIVOLI的综合监控平台的设计与实现

随着企业的信息化建设不断发展,企业建立了大量的IT系统,这些IT系统在运营过程中每天产生大量的事件信息,企业需要通过这些事件信息来判断IT系统的运营情况。然而,由于事件信

学位

IBM Tivoli平台综合性监控IT系统管理软件开发

基于增量和密度的动态网络社团检测算法

复杂网络作为一种描述和分析现实复杂系统的重要工具而广受关注，学者们已经对网络的物理意义和数学特性等方面进行了深入地研究。复杂系统是随着时间不断变化的，将不同时刻的系

学位

动态网络增量方法密度扩展社团检测社团演化分析

网络社区舆情引导技术研究与实现

随着计算机的普及，网络进入了高速发展的阶段，逐步成为了人们生活中的一部分。人们获取信息的方式也逐渐从广播、电视、报纸转移到了网络。通过网络社区，民众可以表达情绪、态度

学位

网络舆情舆情引导信息采集话语复述验证码识别

基于中介真值程度度量的图像分割方法研究

图像分割就是把图像分成各具特性的区域并提取出感兴趣目标的技术和过程。它是图像处理到图像分析的关键步骤,也是一经典难题。本文对模糊聚类理论、标准FCM算法和基于FCM算

学位

图像分割FCM图像分割算法中介真值程度的度量中介隶属度函数边缘检测

QoS感知的语义Web服务发现

面向服务的体系结构(SOA)因具有开放化、智能化和个性化特点,满足了日益增长的网络需求。如何从众多Web服务中获得最符合用户请求的服务,成为了诸多研究者的关注热点。随着语

学位

Web服务Web服务发现WordNetQoS

基于模式匹配的特征词与观点词挖掘

产品评论挖掘就是抽取网络评论中的用户评价信息，从而为消费者开展理性消费以及企业改进产品、提高竞争力提供必要的参考信息。特征词与观点词挖掘是产品评论挖掘领域非常重要

学位

评论分割模式匹配特征词分组SBV算法句法分析

显微镜细胞特征提取及识别

显微镜细胞图像自动分类识别是生物医学的热点研究内容之一。镜检体液中有形成分检测是医学临床检验的重点，因此，镜检体液细胞图像自动识别与分析的实现不仅可以提高医学检测的

学位

不变矩空间距离分布直方图概率滑动窗多重分形维数PCA

基于深度学习的图像语义标注与描述研究

其他学术论文