基于任务级学习和Transformer信息迁移的纹理重建方法

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:mxl19860326
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于深度学习的单图像超分辨率重建(Single Image Super Resolution,SISR)方法性能改善明显,这得益于有针对性设计的网络结构和充分的数据学习过程。SISR网络通常共享上采样卷积核,导致图像内容的位置特异性丢失,内容自适应的信息估计是一个可行,但有挑战性的方向。此外,引入参考图像信息将添加额外的估计线索,也能有效地提高生成图像的质量。本文研究具有内容特异性的卷积核学习方法和基于类相关注意力的纹理信息迁移方法。本文主要工作如下:1、提出一种内容自适应的元学习方法(RPB-Meta SR),它可根据正则化内容模式构建精确的纹理重建卷积核。首先正则化内容模式(Regularized Pattern,RP)定义为低分辨率图像经均值偏移跟踪和特征自组织,在每个位置提取的一个结构风险更小的内容特征向量。其次,采用任务级元学习方法,为每个位置预测一个与其RP匹配的卷积核,以实现空间特异的纹理重建。实验表明,RPB-Meta SR的PSNR和SSIM指标优于目前任意尺度SR重建的标杆方法Meta-SR和LIIF;在与高分辨率原图的主观对比中,其纹理一致性也更好。2、提出一种基于类相关注意力机制的Transformer纹理迁移方法(RCA-TTSR),它依据类相关注意力的权值估算,挖掘参考图像的可转移信息。首先基于查询-键-值的机制,通过计算将查询和键的相似度转化为类相关注意力,保证最相关纹理特征主导下次相关纹理特征的关注度。其次,类相关注意力图将值进行加权融合,得到融合特征以进行纹理迁移。RCA-TTSR方法的性能优于基于参考图像的SR标杆方法SRNTT和TTSR,而且RCA-TTSR在参考图像相似度下降后仍能恢复高质量的SR图像,具有健壮性。3、提出一种基于残差特征—稠密连接的SR网络RFDIDN,加强不同层和不同块残差特征的描述能力。首先插入一个残差特征—稠密块,在嵌套稠密块的残差分支上参与稠密连接,复用卷积层输出和稠密块输出残差特征。其次,使用多个精确修复模块提高生成的SR图像质量。实验表明RFDIDN方法的PSNR和SSIM指标均优于基线方法DID,而且RFDIDN方法生成的SR图像有着更好的视觉效果。
其他文献
近年来,增加卷积神经网络的深度和宽度成为提升模型性能的一个主要方式,但随着模型越来越复杂,其面临着训练不稳定和特征冗余等问题。由于正交具有范数保持性和向量不相关性,可以降低模型训练难度和参数冗余度,其作为一种约束被广泛地运用到神经网络的优化训练中。但目前的正交约束方法多基于矩阵形式,对于卷积神经网络的高阶张量,需将其重排为二阶矩阵再优化,这一定程度上会导致空间信息损失和优化性能受限。近几年张量乘法
学位
介绍了管壳外冷-绝热复合式甲醇合成反应器在3 000 t/d大型甲醇合成装置中的应用情况。72 h装置性能考核结果表明:在生产负荷104%的条件下,粗甲醇中乙醇平均质量分数为0.045%,吨粗甲醇消耗新鲜气1 927 m~3(标态),2台甲醇合成反应器催化剂床层压降为0.193 MPa,合成回路压降0.56 MPa,汽包副产蒸汽压力和流量稳定。采用双塔并联技术,实现了管壳外冷-绝热复合式甲醇合成反
期刊
文字作为传递和承载信息的重要媒介,广泛地存在于人们的日常生活中。场景文字检测是模式识别和计算机视觉的重要研究方向之一,具有非常广阔的应用空间,它在例如教育、金融、医疗、无人驾驶和元宇宙等诸多领域中有着巨大的影响力。然而,场景文字检测依然面临着诸多挑战:一方面,场景文字容易受到光照、模糊、透视形变和杂乱的背景等表观因素的影响;另一方面,场景文字本身也是千变万化的,有着不同的长宽比、语言类型及轮廓形状
学位
认知能力是指人脑加工、储存和提取信息的能力,是人们成功完成活动最重要的心理条件。准确有效的认知能力评估,对疾病诊疗、教育评价、特殊行业人员选拔等具有重要的应用价值。虚拟现实具有高沉浸感、多感知性、强交互性等特点,为认知能力评估方法的扩展提供了新的可能。将虚拟现实技术应用于认知能力评估已成为当前的研究热点。目前认知能力评估研究中存在以下问题和难点:(1)传统认知能力评估方法的任务脱离真实生活场景,沉
学位
人类的生活环境是一个三维的世界。为了实现人工智能(AI)的目标,使机器具有感知和理解三维世界的能力是非常重要的。近年来,三维数据采集设备的快速发展,如Li DAR、Microsoft Kinect、Intel Real Sence,促进了体感游戏、虚拟现实(VR)、增强现实(AR)、自动驾驶的应用,同时3D计算机视觉的研究被广泛关注,特别是3D点云分类和分割、3D目标检测、物体表面重建等。然而,3
学位
人脸识别系统具有便捷、可交互、非侵入性等优点,被广泛应用于日常生活,但它容易受低成本的欺诈攻击如视频重放、相片攻击等的威胁。因此,人脸欺诈/反欺骗检测是保障人脸识别系统安全的必要前提。现有人脸欺诈检测算法虽然库内性能大多优良,但由于目标域和源域的数据分布差异,跨库泛化性能明显下降。此外,现有人脸识别系统较少考虑新型对抗攻击,这种安全隐患将影响人脸识别系统的可靠性。为此,本文从提高人脸欺诈检测算法泛
学位
目的 观察小剂量艾司氯胺酮对老年患者腹腔镜结肠癌手术中血流动力学、应激反应及术后恢复质量的影响。方法 选取2021年1月1日至2022年3月31日唐山市工人医院择期行气管插管全身麻醉下腹腔镜结肠癌手术的老年患者,按随机数字表法分为观察组和对照组。两组麻醉方式均为静吸复合的全身麻醉。麻醉诱导时,观察组静脉输注艾司氯胺酮0.2 mg/kg、舒芬太尼0.2~0.4μg/kg、咪达唑仑0.03~0.06
期刊
在如今信息化的大数据时代,人们利用计算机视觉技术来获取文档中的信息,从而对文档进行数字化的处理、存储、组织与分析。文字检测通常是文档数字化的首要步骤,也是后续文本识别、编辑和检索等任务的重要基础。本文详细介绍了文字检测和相关目标检测领域的发展历程和主流算法,深入分析现有方法在复杂版面文档图像上文字检测的局限性。虽然大多主流算法在自然场景文本检测上已经达到较好的性能,但在段落多栏布局,以及文本密集排
学位
脑肿瘤图像的自动分割可以辅助医生判断脑肿瘤病变区域,这对于脑肿瘤的早期诊断和后期治疗有非常大的帮助。随着深度学习领域技术的不断发展,脑肿瘤图像分割领域涌现了许多新方法和新思路,但许多算法对于小区域的分割表现不是很好,并且参数量和计算复杂度较大。因此本文尝试将各种注意力机制更好地应用于脑肿瘤图像分割模型,同时尽可能降低模型的参数量和计算复杂度。总而言之,本文的主要研究工作如下:(1)由于经典通道注意
学位
图像补全方法利用图像缺损区域周围的信息对缺失内容进行估计,被广泛应用在文物字画修复、网络传输引起的残缺图像恢复和指定前景目标移除等应用中。图像补全方法的关键问题是缺失区域中心上下文信息不足的问题,需要获取额外的结构先验描述作为弥补。对此,本文研究先验描述的获取及其图像补全方法,主要工作包括:1、提出一种由金字塔型网络各层侧输出构造的多尺度边缘先验描述PSEMs(Pyramid Scale Edge
学位