论文部分内容阅读
视觉信息是人类与外部世界接触的主要来源之一。在处理外界的复杂视觉信息时,人脑表现出了高效和鲁棒性等诸多优势。人脑在接触到外部视觉信息后会产生一系列感知神经活动。基于功能磁共振成像的视觉信息编码主要探索如何用一个计算模型来模拟这种复杂的信息处理过程,所建立的计算模型就是视觉信息编码模型。近年来,深度学习技术逐步进入高速发展阶段,深度网络模型的构建借鉴了一定程度上的大脑工作原理,成为了目前模拟大脑视觉功能的新手段。基于深度网络的fMRI视觉信息编码模型的研究有助于加深人类对于视觉系统的工作原理、神经感知机制和对复杂输入信息处理方式的认知,无论是对神经科学还是人工智能等领域都具有很好的理论意义和应用价值。本文以视觉系统中腹侧识别通路上的视觉区为对象,从不同视觉区不同的感知特性出发,结合深度网络模型的优势,围绕深度神经网络在视觉信息编码模型中的应用展开。针对深度神经网络对初级视觉皮层V1和中级视觉皮层V2信息编码模型的优化以及基于多层调节编码模型的自然图像识别方法等关键问题进行了研究,主要工作如下:1.根据低级视觉皮层V1区中体素的感受野特性,利用卷积神经网络建立了一种端到端V1区视觉信息编码网络模型。传统的V1区编码模型的思想是以简单滤波器来模拟V1区体素的感受野,将输入图像投影到滤波器上进行卷积运算提取特征,然后通过线性映射将特征转化为脑信号,这与卷积神经网络(Convolutional Neural Networks,CNN)对于图像信息的计算方式具有一定的一致性。CNN具有较强的非线性逼近的学习能力,能够把非线性的特征提取过程和线性映射合二为一,从而在训练数据的端到端训练中进行联合优化。编码网络模型结构包括一层卷积层和一层全连接层,网络输入为图像,输出为V1区脑信号的预测;使用真实的V1区脑信号对网络进行训练,从而求解最优V1感受野表达和线性映射关系,建立最佳编码映射关系。实验结果表明,与现有V1区视觉信息编码模型相比,该模型对于V1区脑信号的预测准确率得到了显著提升。2.根据中级视觉皮层V2区中的视觉信息处理机制,建立了一种端到端V2区视觉信息编码模型。V2是V1视觉信息的主要输出区域,包含的视觉信息复杂多变,信息处理方式具有较强的层级性。现有的V2区视觉信息编码模型存在特征空间不够丰富,缺少对复杂特征的表达和缺乏对不同级别特征信息的层次化处理等问题。而深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)与人脑视觉系统相似的层次化的信息处理方式和特征表达方式可以有效地对这些问题进行改进。利用一个经过预训练的DCNN建立端到端V2区视觉信息编码网络模型。首先对每个V2区脑信号找到对应的最优DCNN输出层并建立编码网络模型,网络输入为图像,输出V2区脑信号的预测;利用真实V2区脑信号对网络进行训练,从而求解最优特征表达和线性映射关系。实验结果表明,与现有V2区视觉编码模型相比,该模型明显提升了对于V2区脑信号的预测准确率。3.根据人脑视觉腹侧通路的功能和信息处理方式,提出了一种基于多层调节视觉编码模型的自然图像识别方法。对fMRI视觉信号进行解码,识别被试看到的刺激图像主要通过将获取的真实脑信号与编码模型预测的脑信号进行匹配,进而从图像库中判别对应的刺激信息。利用DCNN构建与视觉腹侧通路信息处理结构具有对应关系的端到端视觉信息编码模型,并使用多层次的脑区对网络进行调节。利用网络的第一层输出建立到V1区脑信号的映射,利用网络最后一层的输出建立到V2区的映射,而后利用V1、V2区的真实脑信号对网络的两个不同模块参数进行优化调节,获得一个与视觉腹侧通路功能更为相似的多层调节编码模型。将该编码模型应用于视觉信号解码实验,提取不同模块的输出信号融合,进行自然图像的识别。实验结果表明,基于多层调节视觉编码模型的自然图像识别方法相比于其他方法进一步提升了fMRI视觉信号解码实验中对于自然图像的识别正确率。