论文部分内容阅读
随着机器学习技术的不断发展,深度学习被大量运用在各种不同的领域,并能够帮助各个领域取得突破性进展。深度学习技术被使用最广泛的领域是计算机视觉,而在计算机视觉中最常使用的深度判别学习模型则是深度残差网络。深度残差网络通过在原始权重层上加入并行的跳层连接来缓解普通深层网络训练时难以克服的梯度消失和网络退化问题。这种残差核心思想的引入使得深层网络越来越深,能提取的特征越来越高级,网络的性能越来越好。在此基础上,本文对深度残差网络进行创新性深度学习技术研究并将其运用到两个计算机视觉研究领域的热门应用,分别是行人再识别和医学图像合成。本文主要完成的研究工作如下:1.将考虑深度、宽度和基数的深度残差网络与基于该网络的新的度量学习方法相结合,提出全尺度深度度量学习方法,并将它运用在行人再识别这一问题中来,以实现在视野范围不重叠的多摄像机系统拍摄的图像中的行人识别匹配任务。在CUHK01、VIPeR和QMUL-iLIDS行人数据集上与其他9种不同的度量学习方法进行对比,实验结果表明,全尺度深度度量学习方法在处理平衡学习情形时优于其他对比方法,在处理非平衡学习情形时在所有对比方法中排名第三,总体来说能够取得较高的性能。2.将不同深度的残差网络结合组成非平衡的多通道模型,使其能将不同深度残差网络学习到的不同层次特征进行融合。同时引入一种新的基于残差网络的子结构和三种不同的子结构构造块(输入块、基本块和瓶颈块),以提高模型整体的泛化能力。在此基础上构造非平衡深度判别学习模型,将其运用到医学图像中的动脉自旋标记图像合成。在具有355例患者的老年痴呆症数据集上与其他3种深度学习模型进行对比,实验结果表明非平衡深度判别学习模型合成的动脉自旋标记图像相比于其他模型更接近金标准,同时联合其合成的动脉自旋标记图像与真实的结构性磁共振图像,可以显著提高老年痴呆症诊断的平均准确率,达到62.48%(参考值51.20%,金标准66.14%)。3.提出一种新的基于U型网络(包含深度残差网络)和残差注意力机制的UA生成对抗网络集成。该集成中不同网络将关注医学图像的不同区域,并使用基于流的Glow模型生成基于Gaussian混合模型的噪声(特征)来更好地应对医学图像中常见的异质性特点,使得合成的动脉自旋标记图像更加优质并能使用同一模型合成结构性磁共振图像,即进行双向合成。在两个老年痴呆症数据集的基础上,对提出的UA生成对抗网络集成进行了广泛的实验,与7种不同的深度学习模型相比,UA生成对抗网络集成的优越性得到了证实,同样可以显著提高老年痴呆症诊断的平均准确率,达到73.71%(基于合成动脉自旋标记图像,基准72.12%,金标准75.94%)和72.73%(基于合成结构性磁共振图像,基准71.80%,金标准75.94%),同时首次在ADNI-1数据集中成功地从结构性磁共振图像合成动脉自旋标记图像。通过三个不同的基于深度残差网络的创新性深度学习技术研究可以看出,深度残差网络与不同的深度学习或度量学习技术相结合都蕴含着巨大的优势。