自然图像刺激下的fMRI视觉信息解析深度神经网络模型研究

来源 :战略支援部队信息工程大学 | 被引量 : 1次 | 上传用户：jianfei

【摘要】

：

视觉在人类生存生活、进化发展中发挥着不可替代的关键作用,人类视觉功能的研究一直是脑科学研究的热点问题。其中,探索大脑视觉皮层对视觉场景内容的信息加工机制,分析视觉

【作者】

：

乔凯

【出处】

：

战略支援部队信息工程大学

【发表日期】

：

2021年01期

【关键词】

：

功能磁共振成像视觉信息解析深度神经网络图像表征端到端训练交替优化胶囊网络循环神经网络生成对抗网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

视觉在人类生存生活、进化发展中发挥着不可替代的关键作用,人类视觉功能的研究一直是脑科学研究的热点问题。其中,探索大脑视觉皮层对视觉场景内容的信息加工机制,分析视觉皮层神经活动对视觉场景内容的表征特点,解析视觉皮层神经活动中的视觉场景内容是人类视觉功能研究中非常重要的课题,对理解大脑视觉神经信息处理机制,构建鲁棒、可解释的机器视觉模型,促进人工智能视觉的发展,都具有深远的意义和重要的价值。功能磁共振成像(functional Magnetic Resonance Imaging,f MRI)为大脑视觉皮层功能研究提供了一种空间分辨率高、可靠性好、非侵入式的神经活动监测技术,已经成为人类视觉功能研究的一种重要工具。自然图像场景复杂、目标种类多样,针对自然图像的f MRI视觉信息解析是一个前沿而困难的问题。深度神经网络模型是目前性能最好、与人类视觉层次化信息处理模式最为相近的计算机视觉模型之一。同时,人类视觉又对深度神经网络视觉计算模型的研究具有较强的启发性。因此,本文采用深度神经网络模型针对自然图像刺激下的f MRI视觉信息解析开展研究,系统探索了视觉信息的深度神经网络模型处理和人类层次化处理在结构、任务、表征特点等方面的联系和差异,对深度学习和f MRI视觉信息解析的交叉研究提供了一些新的理解视角,对与人类视觉信息处理相关的机制、方法和技术研究具有重要的借鉴价值和意义。本文围绕“如何通过深度神经网络构造符合视觉皮层信息表征特点的计算模型并精确解析自然图像场景内容”这一科学问题展开研究。考虑到深度神经网络模型对视觉信息的表征方式和能力受到多方面因素的影响,本文从深度学习的训练方式、视觉任务、网络结构等多个角度出发,首先利用深度神经网络及其特征构建编码模型,充分刻画低级和高级视觉区域的信息加工过程,实现从自然图像刺激到视觉皮层f MRI体素响应的精确预测;然后构建解码模型,实现从图像低层特征内容重构到融合高层语义的自然图像场景重构,不断推进自然图像刺激下的f MRI视觉信息解析水平的层级跃迁。主要研究成果如下:1.针对低级视觉区域,提出了一种基于端到端卷积回归网络的视觉编码模型(End-toEnd Convolutional Regression Network-based Visual Encoding Model,ETECRN-VEM)。如何构造符合视觉皮层信息表征特点的图像表征模型是视觉编码的关键问题。现有编码模型首先采用预训练深度网络图像识别模型提取图像特征,然后按照逐体素的方式把图像特征线性映射到f MRI体素响应。然而,这种两阶段的方式事先难以确定哪一层网络特征能够与特定视觉感兴趣区域(Region of Interest,ROI)体素响应具有较好的线性匹配关系,需要遍历尝试深度网络中不同层的特征构建编码模型。因此,图像表征模型的构造具有较大的不确定性,难以较好刻画特定视觉ROI的信息表征特点,同时,逐体素的编码方式效率较低。针对这两方面问题,本文引入端到端的训练方式,驱动深度神经网络直接从f MRI数据中自动学习更加符合特定视觉ROI表征特点的图像表征模型,在同时编码一个视觉ROI中所有体素时,通过设计体素选择性优化策略,降低了一些较低信噪比的无效体素对整体编码的干扰,从而构建了端到端逐视觉ROI编码模型。实验结果表明所提出模型相比可以更好地编码大约80%的V1视觉区域体素,以及60%-70%的V2和V3视觉区域体素,在低级视觉区域的编码性能和效率有了显著提升。2.针对高级视觉区域,提出了一种基于图像描述特征的视觉编码模型(Image Caption Features-based Visual Encoding Model,ICF-VEM)。如何构造针对图像高级语义的表征模型是编码高级视觉区域的关键问题。现有f MRI数据规模较小,端到端逐视觉ROI编码模型难以自动学习高级视觉皮层较为复杂抽象的信息表征模式。现有编码模型主要采用在图像分类任务上预训练的深度神经网络模型,然而,图像分类任务仅要求辨识自然图像场景中的关键目标,使用图像分类任务难以驱动深度网络有效刻画高级视觉皮层的信息表征特点。针对该问题,本文引入语义层次更高的图像描述任务,驱动深度神经网络构造更加符合高级视觉皮层信息表征特点的图像表征模型,提取更加复杂抽象的语义特征,以更好地编码高级视觉皮层。同时借助图像描述特征与大量语义词汇的关联性,实现了对高级视觉区域体素的语义解释。实验结果表明所提出模型几乎对所有的高级视觉区域,在大约60%的体素上表现出了优势,获得了更高的编码性能,可视化分析揭示了高级视觉区域表征自然图像场景内容中目标、目标属性以及目标间关联性的特点。3.针对简单图像低层特征内容,提出了一种基于胶囊网络的视觉重构模型(Capsule Network-based Visual Reconstruction Model,Caps Net-VRM)。基于深度网络特征的两阶段视觉重构是简单图像重构的一种有效方式,首先把f MRI体素响应映射到中间网络特征上,然后通过预测的特征逆向映射回到图像,重构精度受到中间网络特征的信息完整性和可逆性的影响。因此,如何构造符合视觉皮层信息表征特点的可逆图像特征中间桥梁是简单图像精确重构的关键问题。卷积神经网络(Convolutional Neural Network,CNN)结构具有平移、旋转等不变性表征的特点,在图像表征过程中容易丢失一些与目标位置、方向等相关的低层特征信息,降低了图像低层特征内容的重构精度。针对该问题,本文从深度学习网络结构的角度,引入胶囊网络模型通过等变性表征构建信息完整、可逆的图像低层特征桥梁,从f MRI体素响应中预测对应的胶囊特征,进而通过逆向变换完成了对简单图像的精确重构。实验结果表明所提出模型在结构相似性指标上提高了约10%,显著提高了简单图像低层特征内容的重构性能,并通过可视化胶囊特征实现了对低级视觉皮层f MRI体素的特征解释和分析。4.针对自然图像低层特征内容,提出了一种基于自编码器交替训练的视觉重构模型(Alternating Autoencoder-based Visual Reconstruction Model,AAE-VRM)。视觉编码和视觉重构是两个完全相反的问题,如何构造符合视觉皮层信息表征特点的特征空间是视觉编码和视觉重构共同的关键问题,然而现有方法通常分别单独构建视觉编码和视觉重构模型,忽略了两者紧密关联的性质。针对该问题,本文提出了交替循环构建视觉编码和视觉重构模型的方式,在编码模型辅助下实现了较好的重构模型构建,较好的重构模型又辅助编码模型的构建。首先,以不同的顺序连接视觉编码网络和视觉重构网络,构造两个相反的自编码器,分别用于图像和f MRI体素响应的自编码训练,辅助视觉编码和视觉重构的有监督训练。然后,在半监督学习过程中交替循环训练视觉编码和视觉重构模型,通过两者的相互促进、迭代增强,辅助构造了更加符合视觉皮层信息表征特点的视觉重构模型。实验结果表明所提出模型在低层特征重构辨识度指标上接近90%,在自然图像低层特征内容重构上取得了更高的精度。5.针对自然图像场景语义,提出了一种基于双向循环神经网络的视觉分类模型(Bidirectional Recurrent Neural Network-based Visual Classification Model,BRNN-VCM)。不同层次视觉区域在自底向上和自顶向下视觉机制的作用下相互联系,关联表征视觉输入信息,而现有视觉分类模型将所有视觉区域f MRI体素看作一个整体送入视觉分类器,没有利用不同视觉区域间的关联性,难以刻画视觉皮层自底向上和自顶向下的信息表征特点。针对该问题,本文采用BRNN,把视觉皮层中拓扑相连的视觉区域看作一个空间序列,将每个特定视觉ROI中的f MRI体素响应作为空间序列中的一个节点送入BRNN,构造了符合人类视觉皮层中自底向上和自顶向下视觉信息流动特点的解析模型。通过对f MRI序列数据建模提取视觉区域内部和视觉区域间的特征信息,完成对f MRI视觉信息中场景语义的解析。实验结果表明所提出模型在视觉分类精度上提高了约5%,验证了视觉皮层双向拓扑结构与视觉场景语义表征的关联性。6.针对自然图像场景内容,提出了一种基于生成对抗网络的贝叶斯视觉重构模型(Generative Adversarial Network-based Bayesian Visual Reconstruction Model,GAN-BVRM)。采用生成对抗网络是目前提高重构图像高层特征自然度的一种有效方式,却往往难以兼顾重构图像的低层特征保真度。兼顾重构图像的低层特征保真度和高层特征自然度是现有自然图像场景精确重构的困难问题。针对该问题,本文引入贝叶斯方法,首先使用BRNNVCM根据f MRI体素响应解析出场景语义类别,送入预训练生成对抗网络的条件生成器,根据输入的随机噪声生成自然图像。然后通过ETECRN-VEM评估生成图像与视觉皮层f MRI体素响应在低层特征空间的拟合度。GAN-BVRM各个模块全部由可微的神经网络组成,通过梯度反向传播,迭代更新生成器的噪声输入向量以最大化拟合视觉皮层f MRI体素响应,最终优化后的噪声向量输入生成器得到重构图像。其中,低级视觉区域编码模型和解析出的语义类别分别约束重构图像的低层特征内容和场景语义,从而兼顾了图像低层特征保真度和高层特征自然度。实验结果表明所提出模型在平均感知相似性指标上提高了约10%,显著提高了自然图像场景的重构精度。

其他文献

龙凤兄妹——悠悠、轩轩

赵佳宁/赵佳宇,昵称:悠悠/轩轩,性别:男/女,出生日期:2003年12月9日,所在地区:北京市海淀区。悠悠轩轩是一对可爱的龙凤胎兄妹,两人虽然同时出生,却拥有不同的爱好、不同的性

期刊

动手能力出生日期龙凤北京市海淀区飞机武术绘画性别昵称

麦当娜最新专辑问世全球巡演在即

8月,美国流行音乐一姐麦当娜将迎来50岁生日。作为天命之年推出的新作,《Hard Candy》专辑在发行之前就吸引了亿万歌迷。在英国流行音乐专辑榜中,《Hard Candy》空降冠军,加

期刊

英国全球威尔士歌手世界冠军美国成功演出公布

张学友 “歌神”只是一种称呼

“歌神”张学友神采奕奕的出席在他的“2007年张学友好久不见中国巡回演唱会”的新闻发布会现场,在应对完各大媒体的“猛攻”后第一时间接受了爱国者数码音乐网记者的百无禁

期刊

鼓舞东方

期刊

东方方方鼓舞城市风烟花门窗窗花信风炼山鼓手

小径管环焊缝超声波探伤工艺优化研究

期刊

小径管环焊缝超声波探伤工艺优化锅炉

中央少年广播合唱团我的百年品牌梦开始的地方

《让我们荡起双桨》《听妈妈讲过去的故事》中央少年广播合唱团那悠扬的歌声伴随着一代代青少年茁壮成长。几十年过去了,我们在电影《周恩来》《孔繁森》中,在2008年北京奥运

期刊

合唱团童声合唱广播少年品牌中央指挥家电台周恩来老师

丹心育桃李芬芳遍天涯——记繁华和他的少儿艺术团

悠悠我中华,巍巍礼仪邦,上下五千年,文明四海扬。河南,华夏民族的根源,中华文明的起源,以黄河母亲的情感,以群雄逐鹿的坚强,以炎黄大帝的胸怀孕育了历史悠久,沉积深厚,辉煌灿

期刊

少儿艺术繁华中央电视台艺术训练中原文化歌手青少年河南省艺术精品主题歌

韩亮

姓名:韩亮英文名:tank来自:内蒙古身高:184cm体重:65kg血型:A型生日:1月8日星座:山羊座爱好:吉他、电脑、游戏、睡觉性格:只有向前、没有后路最喜欢的食品:甜食最喜欢的颜色:

期刊

以一流素质、一流作风、一流创新创建一流的企业品牌

期刊

电力行业发电企业WTO经营管理企业品牌

浅谈降低工程造价的措施

我国的经济体制是建立社会主义市场经济的体制，是人们对社会主义认识的更新，也是十多年来市场取向改革的成果。目前各行各业各部门都在争取在较短时间内建设起符合市场经济的基

期刊

建设管理体制社会主义市场经济改革部门经济体制降低工程造价市场取向规章制度基本特征成果

自然图像刺激下的fMRI视觉信息解析深度神经网络模型研究

与本文相关的学术论文