论文部分内容阅读
近年来,随着现代神经影像技术以及人工智能技术的发展,神经科学家们能够借助这些技术来解码大脑,即读取大脑所感知的内容。解码大脑的神经影像技术可以是脑电图(EEG,electroencephalography)、脑磁图(MEG,magnetoencephalography)或功能磁共振成像(f MRI,functional magnetic resonance imaging)等等。在这些影像技术中,f MRI同时具有无创性和高空间分辨率的优势,并且可以定位大脑区域位置,所以它常被用于脑解码研究。虽然近十年来,基于f MRI信号的脑解码技术得到了快速发展,但还存在分类解码准确率较低,重构解码模糊,语言解码研究欠缺等问题。针对这些问题,本文以自然图像作为视觉刺激,使用f MRI技术记录视觉皮层的神经活动,建立视觉刺激与脑功能信号之间的映射模型,分别从分类解码、重构解码和语言解码三个方面进行视觉感知解码的理论与方法研究,主要内容如下:(1)基于递归神经网络的分类解码研究。针对分类准确率较低的问题,该研究提出了一种基于长短时记忆网络(LSTM,long short-term memory networks)的分类解码模型,从视觉神经活动中分类出刺激图像的类别。结果显示,相较于峰值视觉活动,多时间视觉活动的解码准确率更高。该研究证明了基于LSTM的解码模型可以提取多时间视觉活动中的时间信息,从而提高了分类解码的性能。此外,对不同视觉皮层的比较,结果显示高级视觉皮层的分类准确率显著高于低级视觉皮层。该研究验证了高级视觉皮层比低级视觉皮层包含更多的用于分类解码的有效信息。(2)基于渐进增长生成对抗网络的重构解码研究。针对重构图像模糊的问题,该研究提出了一种包括潜特征提取器、潜特征解码器和自然图像生成器的重构框架,从视觉活动中生成高分辨率的自然图像。在重构框架中,潜特征提取器被用于提取图像的潜特征,潜特征解码器被用于从高级视觉皮层的神经活动中预测图像的潜特征,自然图像生成器被用于结合预测的图像潜特征和低级视觉皮层的神经活动从低分辨率开始逐渐生成高分辨率的重构图像。结果显示重构的图像和刺激图像是相似的。研究表明,该重构模型不仅能够从视觉活动中生成高分辨率的图像,还能够使得生成的重构图像保持与刺激图像一致的语义信息。(3)基于相似条件生成对抗网络的重构解码研究。针对样本量不足的问题,该研究提出了一种端到端的重构解码模型,从视觉活动中生成出自然图像。该重构解码模型包括图像特征提取器、大脑特征提取器和条件生成对抗网络。首先,图像特征提取器和大脑特征提取器分别提取自然图像的潜特征和视觉活动的潜特征。然后,该模型通过判断自然图像和视觉活动之间配对与否,构建相似度损失,并将其引入到重构解码模型的总损失中。接下来,视觉活动的潜特征作为条件,被输入到条件生成对抗网络中,来生成出重构的图像。最后,配对与否的策略被用来训练该重构解码模型。结果显示,重构图像与刺激图像之间具有较高的相似度。该研究表明,相似度损失和配对与否的训练策略,能够使重构解码模型学习到携带有效信息的潜特征,从而提升重构解码的性能。(4)基于递归神经网络的语言解码研究。针对语言解码研究欠缺的问题,该研究提出了一种基于LSTM的语言解码模型,从视觉活动中生成语言。该语言解码模型包括图像编码器、f MRI编码器和语言解码器。首先,图像编码器和f MRI编码器分别提取自然图像和视觉活动的潜特征。然后,图像的潜特征和视觉活动的潜特征通过迁移因子进行加权,并将加权项输入到语言解码器,来生成描述自然图像的短语或句子。在训练过程中,图像的潜特征的权重逐渐转移到视觉活动的潜特征上。在测试时,仅仅使用视觉活动的潜特征来生成短语或句子。结果显示,高级视觉皮层比低级视觉皮层获得了更高的语言解码性能。该研究表明,用于生成语言的有效信息主要在高级视觉皮层中。(5)基于Transformer的语言解码研究。针对语言解码准确率低的问题,该研究提出了一种基于Transformer的双通道语言解码模型,再一次从视觉活动生成语言。该语言解码模型包括图像提取器、图像编码器、神经提取器、神经编码器和语言解码器。首先,图像提取器和图像编码器一起来提取自然图像的潜特征。与此同时,神经提取器和神经编码器一起来提取视觉活动的潜特征。然后,两个潜特征之间的相似度被计算来获得相似度损失,并将其添加到语言解码模型的总损失中。最后,自然图像的潜特征和视觉活动的潜特征通过迁移因子进行加权,并将加权项输入到语言解码器中来生成短语或句子。与上一个语言解码研究一样,在训练过程中,图像的潜特征的权重逐渐转移到视觉活动的潜特征上。在测试时,仅仅使用视觉活动的潜特征来生成短语或句子。通过不同训练策略的比较,结果显示渐进迁移的训练策略拥有最高的解码性能。与此同时,对是否引入相似度损失的比较,结果显示相似度损失提升了语言解码的准确率。该研究表明,基于Transformer的双通道语言解码模型,是一种能获得较高语言解码性能的优秀模型。