基于自适应样本块和卷积神经网络的图像修复研究

来源 :阜阳师范大学 | 被引量 : 0次 | 上传用户:chrisdc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像修复技术来源于对艺术品复原,随着数字化图像获取越来越便利,人们对数字图像的修复质量提出更高要求。如今,数字修复技术在目标物移除、旧照片修复、信息隐藏、视频修复等方面有着广泛应用。因此,图像修复技术受到众多学者的关注,并成为图像处理领域中一个重要分支。本课题以Patch Match算法和基于HDC(hybrid dilated convolution)的卷积神经网络为主要的研究目标。首先对图像修复技术国内外研究现状进行对比分析。其次针对Patch Match算法采用固定样本块的修复方式,无法适应复杂的纹理图像修复,提出了基于改进Patch Match的图像修复算法。最后由于传统的图像修复方法无法修复样本资源不存在的填补情况,因此本文提出基于HDC的卷积神经网络图像修复方法,通过网络学习大量先验知识填补缺失内容。本文主要研究内容有:(1)针对Patch Match算法采用固定样本块可能导致修复结果产生错误填充的情况。为解决这一问题,首先在上采样图像融合时,使用Sobel算子检测填充区域边缘,其次使用膨胀和腐蚀等操作,统计边缘梯度幅值信息,最后依据该信息自适应调整当前层样本块大小实现图像修复。(2)针对双阶段网络结构,使用连续膨胀卷积时出现网格效应(gridding effect),导致修复效果不理想。本文首先使用HDC方法设计网络结构,避免网格效应;其次使用CA算法从已知区域提取与填充区域近似的特征,实现精细化修复,嵌入CBAM算法提高修复内容的清晰度,使用Gelu激活函数拟合填充区域边缘部分,提升修复的平滑效果。最后将感知分支与卷积分支输出的特征图进行融合后传入到一个解码器中,生成高质量的修复图像。实验结果表明,所提出的算法在修复效果上,体现了更加合理的视觉连通性,与其它方法在客观评价指标上对比,表明本文算法的优势。
其他文献
兴国必先强师。校本研修是促进教师专业发展的重要途径,也是改善乡村教育水平、落实基础教育“双减”政策要求、提升乡村教师整体素质的必要选择。但是,在现阶段,乡村教师研修在资源、管理、方式等方面与城市学校相比,还存在一定差距。随着网络信息传播技术的发展与应用,为乡村教师校本研修提供了新的发展机遇,同时也提出了更高的要求。如何立足于乡村学校教师发展的实际,特别是在当前新冠肺炎疫情防控常态化的背景下,探寻一
学位
自然语言处理和计算机视觉借助深度学习技术不断取得新突破,以图像和文本为基础的跨模态交互慢慢成为研究热点,视觉问答(visual question answering,VQA)任务作为多模态研究内容之一也越来越热门。视觉问答任务是计算机模型对输入的图像提取出视觉特征,对输入的问题提取出问题特征,经过跨模态融合得到图像和问题的联合向量,最后使用预测函数输出答案的多分类任务。相比于单一的计算机视觉或自然
学位
图像分割是计算机视觉的一个非常经典的难题,对图像分析和图像理解具有重要的支撑作用。图像分割的实质是对一副图像进行目标与背景的分离,从而提取出感兴趣的区域。图像分割技术的应用领域较为宽泛,如人脸识别、无人驾驶和安防监控等。图像分割在医学图像辅助治疗中也发挥着重要作用,医学图像分割是图像分割领域最为重要的研究方向之一。近年来,人工智能的不断发展使得群体智能算法被广泛的运用到图像分割算法中,并且取得了不
学位
藏文古籍在我国各民族遗存的古籍文献中占据着重要地位,承载着藏族的文化和历史。但是由于藏文历史文献存放的时间太久,许多古籍图像文字出现模糊或者缺失,甚至有些文档无法翻阅,亟需数字化保护和整理。藏文古籍图像识别是数字化保护的重要组成部分,而藏文古籍图像行分割是字符识别的一个重要步骤。本课题主要研究藏文古籍图像行分割,针对藏文古籍图像的特点,提出了两种藏文古籍图像文本行分割的方法,主要内容有以下两个方面
学位
宇宙线探测实验中所采用的大气切伦科夫光望远镜,为了收集更多的切伦科夫光,通常需要安装大口径的反射镜。在宇宙线探测和分析过程中,望远镜反射镜反射率将直接影响切伦科夫光的测量。高海拔宇宙线观测站(LHAASO)中,共有18台切伦科夫望远镜。虽然生产厂家提供了反射镜的反射率参数,但是反射镜在长期使用中会因为老化或者磨损导致反射率会有不同程度的衰减。不同波长的光、不同的时间、同阵列下不同的望远镜的反射率也
学位
在多种复杂场景下进行车辆检测和提取到车辆重要信息一直是目标检测领域的重要研究方向之一。该问题的突破可以为智慧交通系统中的车辆统计技术提供基础,在一定程度上缓解交通拥挤问题,以及为车辆跟踪问题提供相应的技术支持,其中车辆是否能够准确检测是后续相关工作的前提,本文的主要研究工作及贡献如下。(1)为了降低选取先验框选取时间以及提升模型的检测精确度,利用k-means++聚类算法选取9个目标先验框和尺寸,
学位
近年来,基于计算机视觉和自然语言处理的多模态交互任务虽然取得了进展,却也出现了类别不平衡,模态无法对齐等一些具有挑战性的问题。视觉问答是一种经典的多模态交互任务,以图片和问题作为输入,得到能够回答与图像内容有关的文本答案。然而视觉问答任务具有语言先验性,模型更加偏向仅依据问题与答案之间的关系回答问题,较少考虑图像内容,而且相关数据集候选答案分布也不平衡。基于此,本文提出了两种处理语言先验的方法:针
学位
深度神经网络的出现为人工智能技术的研究注入了新的活力,并且已经较为成熟地应用在了图像识别、目标检测、语音识别等领域。作为人工智能新兴的热门研究方向,视觉问答(Visual Question Answering,VQA)任务也因此受益,近年来有了很多研究成果。现有的视觉问答模型由于受到语言先验的影响,预测准确率不高。模型能够学习到问题和答案之间的表面联系,而无法学习到它们之间更深层次的联系,容易出现
学位
随着弹幕评论功能在视频播放平台投入使用并受到用户的认可,视频中的弹幕量也随之增大。弹幕中表达对于视频情节的即时观点、感受等主观信息具有研究价值,但是利用现有的情感词典提取特定领域弹幕数据的情感信息并加以分析却颇有难度。本文以B站(Bilibili网站)视频弹幕为研究对象,针对常规情感词典不适用于视频弹幕领域的语料库且在情感分析上维度比较单一的问题,提出基于多维情感词典结合深度学习的方法研究分析弹幕
学位
随着互联网技术的迅速发展,深度学习在计算机领域受到越来越多的学者们的关注。随之衍生的多模态任务,例如图像描述、OCR、图像字幕、视觉问答等也备受计算机领域的学者关注。其中,视觉问答(Visual Question Answering,VQA)任务逐渐成为学者们讨论的热点。VQA任务是指让计算机来回答与图像相关的问题,即给定一张图像和与该张图像相关的采用自然语言方式来表示的问题。VQA任务就是让模型
学位