基于平均场理论的深层GAN稳定训练研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ww4102001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着待解决问题的复杂性增加,神经网络的深度也在快速增长。尽管有不少启发式思路可用于解决深层网络稳定性训练的问题,但他们都缺乏坚固的理论框架支撑,使得定量的说明解释仍然困难重重。因此一种被称作平均场理论的新理论框架近来被广泛研究,旨在为深层网络的稳定训练提供准确的数学证明和解释。但是在诸如生成对抗网络(Generative Adversarial Network,GAN)等无监督模型上,平均场理论的适用性仍缺乏研究。因此基于平均场理论,对深层GAN稳定训练条件展开研究,为具有深层结构的GAN提供理论上稳定训练保证的同时,也可进一步扩展平均场理论的适用范围。方法首先对全连接结构和卷积结构的网络应用平均场理论模型,通过方差不动点性质和相关系数不动点性质,整个深层网络的雅可比(Jacobian)矩阵被转化为了两个随机矩阵乘积的幂。对这两个随机矩阵奇异值的研究建立起了深层网络的训练稳定性和深层网络初始状态(初始状态变量包括:网络初始化参数时选择的随机分布与其方差,激活函数类型)之间的函数关系。该函数取1时的点组成了一条状态转换边界曲线,深层网络只有初始状态落在状态转换边界上才有可能被稳定训练。GAN独特的信号传播路径使得深层GAN必须满足三个条件才能被稳定训练:一、产生初始有效的梯度信息;二、保证梯度的稳定传播;三、抑制输入的相关系数在传播过程中快速收敛。它们分别通过选择合适的损失函数、调整GAN的初始状态使其位于状态转换边界、使用随机正交矩阵来替代普通随机矩阵初始化网络参数等三个措施来达成。实验表明对深层GAN训练稳定性的理论分析与实际结果十分接近,不满足平均场理论指出的深层GAN稳定性训练条件的深层GAN同预测一致出现了梯度消失,梯度爆炸,相关系数收敛等问题,验证了平均场理论在深层GAN稳定训练问题上的有效性。此外生成图像的弗雷歇初始距离(Fréchet Inception Distance,FID)也说明了深层GAN生成的图像质量具有竞争力。
其他文献
随着视频大数据的日益积聚、硬件技术的不断突破和计算机视觉技术的迅猛发展,基于视频监控图像和深度学习的行人重识别技术在城市安防和智慧社区等领域中持续发力,应用前景广阔。然而,现实复杂场景下的行人重识别面临着非常严重的域偏差问题,光照、视角、分辨率等外部因素的差异都将对算法的精度产生严重干扰。因此研究行人重识别的域自适应问题对面向实际应用的算法落地有着极为重要的意义。基于对抗生成网络和聚类伪标签两种方
学位
新冠肺炎自2019年末爆发以来,全球每日新增确诊病例已达到数十万例。计算机断层扫描(CT)检查是一种高效敏感的新冠肺炎筛查手段,分割CT图像的新冠病灶是诊断新冠肺炎及监测临床病情的重要步骤。但由于缺乏经验丰富的放射科医师,对CT图像的分割很难大规模进行,急需探索高效的新冠肺炎病灶自动分割方法。常规的卷积神经网络分割模型参数较多,其泛化能力受限于训练样本数量。而常用于医学图像分割的UNet模型在应用
学位
航拍图像中的目标检测是计算机视觉相关研究中的一个热点领域,虽然已有诸多的研究成果,但只有较少的工作对深度学习目标检测模型应用于航拍目标检测任务上存在的问题进行了分析。通过对比自然图像和航拍图像两类图像的特征可知,目前航拍图像目标检测模型精度提升的瓶颈是航拍图像的目标特征存在显著不一致性导致的,图像中检测目标尺寸具有极大的差异性且部分目标绝对和相对像素面积均过小,这些问题导致了现有的检测模型的准确率
学位
遥感图像地物要素提取是遥感测图的关键环节之一,地物要素提取精度的高低直接影响测图成果的好坏。基于深度学习的遥感图像语义分割方法是当前快速提取地物要素的主要方法,居民地作为遥感图像中的典型面状地物要素,对其规则化提取方法进行研究,是探索解决遥感测图中地物要素提取问题的有效途径。为了解决现有语义分割网络获取的遥感图像居民地要素提取结果精度不高、轮廓不准确的问题,提出了多特征增强Deep Labv3+,
学位
随着无人机等便携大规模图像采集设备的普及,基于光学相机的三维重建技术在土木工程建设、数字化智慧城市等领域也得到了普及。使用无人机可以一次性采集大量的图像,其实际覆盖面积可达数十甚至数百平方公里。同时,无人机采集也可以非常方便的调节采集图像的高度、覆盖率、倾角等参数。但是采集的大量图像也产生了计算量庞大和计算时间过长等缺陷。尤其在稀疏重建阶段,传统的增量式稀疏重建需要不断进行捆集调整优化也使得重建时
学位
随着计算机视觉技术的快速发展,目标检测和动作检测等技术都慢慢开始发展并普及应用,因此引申出来一个很重要的技术,那就是人体姿态估计。这个技术的实现能帮助计算机快速理解人类动作和行为,并进一步提高人类的生活质量。在实时监测应用场合,自底向上的多人姿态估计方法更全面且更有优势。传统的自底向上多人姿态估计方法中关键点分组通常独立于关键点检测来解决,从而使其无法端到端训练并且具有次优的性能。针对这个问题,想
学位
髋关节疾病已经成为了近几年来严重影响人们生活的重要疾病之一。全髋关节置换手术是治疗髋关节疾病的重要手段,而髋臼窝和股骨头的中心点位置是否定位准确是全髋关节置换手术成功与否的关键。准确地定位出髋臼窝和股骨头中心点具有重要的临床意义。针对CT图像中的髋臼窝和股骨头中心点定位提出了两种方案。一种方案是基于空间配置网络的深度学习定位算法。针对空间配置网络定位精度不够的问题,通过在网络解码器部分引入残差模块
学位
图像中的物体目标检测和姿态估计一直受到广泛研究,并且在许多领域拥有实际应用,比如机器人操控,人机交互,虚拟现实和增强现实等。目标检测提供了图像中目标的类别和位置信息,姿态估计则提供了图像中目标的旋转和平移信息,可以更准确的获取图像中物体的位置。传统方法存在一些局限性,比如基于特征的方法不能很好的处理弱纹理对象;基于模板的方法不能很好的处理遮挡情况。目前基于深度学习的方法是物体目标检测和姿态估计的主
学位
显著性检测旨在模拟人类视觉系统的注意力机制。神经学研究指出人类视觉系统对同步的视听刺激产生的响应要大于单独的视觉刺激,从神经控制的角度表明声音对人眼的关注存在一定影响。然而,以往的视频显著性检测多侧重于视觉信息方面的研究,而忽略了听觉信息的相关作用。将音频引入视频显著性检测研究,可以更好地模拟真实视频观看场景下人眼对视听信息的处理过程,以及人类视觉系统的响应情况。为了更好地体现视觉关注中听觉的影响
学位
随着互联网的快速发展,多媒体数据呈现爆炸式增长,给相关智能分析技术带来巨大的挑战,尤其在计算效率方面。目标检测作为计算机视觉的基础任务之一,也是多媒体智能分析中的常用技术。近年来,深度学习技术的引入使目标检测性能得到明显提升,然而现有目标检测器往往因其庞大的计算量消耗,无法在计算资源有限的设备上充分发挥作用,这对智能产业落地造成了巨大的阻碍。另一方面,针对目标检测轻量化的模型压缩技术尚不成熟,仍有
学位