基于双注意力机制的图像描述生成方法研究

来源 :武汉科技大学 | 被引量 : 1次 | 上传用户:zhb_lzh_X
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为计算机视觉和自然语言处理的交叉领域,图像描述生成近年来一直是一个活跃的研究课题,它的研究有助于多模态社交媒体从非结构化图像数据向结构化文本数据的翻译。传统的研究工作提出了基于模板、基于检索、基于编码-解码的图像描述方法。在这些方法中,基于编码-解码框架的方法广泛应用于图像描述生成,其中,编码器采用深度卷积神经网络(Convolutional Neural Network,CNN)提取图像特征,解码器采用循环神经网络(Recurrent Neural Network,RNN)生成图像描述。神经图像描述(Neural Image Caption,NIC)模型在生成图像描述方面取得了良好的效果,但仍存在一些有待解决的问题。为了解决生成的句子描述中图像信息缺乏和偏离图像核心内容的问题,本文提出的模型使用视觉注意力机制加强对图像细节内容的理解,采取文本注意力机制增强信息的完整性,并提出视觉注意力和文本注意力相结合的双注意力机制指导图像描述生成。为了解决生成的句子偏离图像核心内容的问题,本文在NIC模型基础上,编码端使用Inception_v4网络提取图像特征,解码端引入视觉注意力机制添加到长短期记忆(Long Short-Term Memory,LSTM)网络中。为了解决生成的句子描述中图像信息缺乏的问题,本文加入文本注意力机制,增强生成的句子描述的信息完整性。本文尝试了基于全卷积网络(Fully Convolutional Network,FCN)提取标签和基于非负矩阵分解(Non-negative Matrix Factorization,NMF)主题模型提取标签的方法,将依附于图像标签的文本注意力和聚焦于图像区域的视觉注意力结合,采用双注意力机制指导图像描述生成。并探索了视觉注意力和文本注意力位置的不同对图像描述生成结果的影响。本文基于AIC-ICC数据集进行实验。基于双注意力机制的NICNDA模型的图像描述生成结果要比基于单注意力机制模型和基准模型结果要好,表明本文提出的基于双注意力机制的NICNDA模型是可行的。而且,基于双注意力机制结合方式的图像描述生成模型结果也表明本文对双注意力机制结合方式的研究是有意义且有效的。
其他文献
煤体结构即地质历史演变阶段煤层受到不同地质作用所呈现结构特征,通过变形与变质作用下,煤体随之分成原生结构煤与构造煤。目前很多学者通过宏观法、显微法观察构造煤分类,
由于实际工业控制系统一般都采用计算机实现信息采集,因此利用含有噪声的输入和输出信息对系统进行状态估计和参数辨识是分析系统安全运行的前提和保障.即使采样信号中需要的
液晶材料目前广泛的应用于液晶显示器(Liquid Crystal Display,LCD),但是随着显示技术的发展,LCD显示由于其结构带来的缺点,其市场份额慢慢的被有机发光二极管(Organic Light
中小企业作为我国最具活力的微观个体,其对GDP以及税收就业等的贡献已经占据中国经济的半壁江山。但中小企业蓬勃发展的背后不容忽视的问题是中小企业经常在金融市场上遭受金
定量表征单位面积纸张的质量,是最重要的纸张质量评价指标之一。高速印刷机的广泛使用及纸和纸板低定量化的发展趋势,对纸张纤维的匀度分布(主要反映在定量分布上)提出了更加
鬼成像是不同于传统成像的一种新兴成像技术,它凭借系统结构简单、高分辨率、抗干扰性强等优势,受到了广泛的关注。该技术将获取的光强信息进行二阶关联运算,从而重构待测物
光动力疗法作为一种治疗癌症的新方法,越来越受到人们的重视。近年来,酞菁化合物,尤其是多胺类酞菁化合物以其天然的肿瘤靶向功能受到光动力疗法研究者的广泛关注。本论文针
微电子技术被广泛应用于工业生产和国防军事领域,印刷电子作为其中一项重要技术正在逐步取代传统的制造技术。印刷电子与传统制造技术相比,具有方法简单,成本低,绿色环保等优
本文比较了UV汞灯光源和UV-LED光源不同的光谱特性,并用这两种光源对A公司生产的UV印铁光油进行固化测试和性能测试;UV-LED光谱分布是狭窄的单一波峰,并且随着距离变大,光强
近年来,人工智能普及和发展的速度就像飞驰的列车,越来越多研究生物大分子关系的科研人员也乘上了这趟列车。因为相对传统生物医学实验而言,这可以极大地节省研究成本和精力