论文部分内容阅读
深入理解大脑的结构和功能是本世纪最具挑战性的前沿科学问题之一。对人脑的各种功能进行不同尺度和不同层次的深入探索,不仅对诊断和治疗人类的各种疾病有重要的意义,还可以有效促进类脑人工智能和脑机接口技术的发展。尝试利用神经影像数据分析大脑的工作原理及功能的研究被称为神经信息编解码,从大脑的神经响应中解码出人眼看到的视觉信息是“读脑术”的率先尝试。视觉图像刺激会引发大脑视觉脑区的特异性神经活动,通过功能磁共振成像等神经影像方法可以捕捉到这些神经活动。本论文旨在通过最新的机器学习技术,尝试从神经影像数据中更准确地重建人眼观看到的视觉图像,藉此促进类脑智能和脑机接口技术的发展。本文的主要研究内容及贡献概括如下:1.综述神经信息解码领域的研究现状,归纳了神经解码任务中使用的机器学习和深度学习算法,总结了跨模态视觉重建算法的设计思路和发展历程。2.提出了自监督学习引导的跨模态生成模型。由于人脑功能高度复杂,且神经影像数据样本量少、维度高、模态多样、信噪比低,普通的深度神经网络模型很难学习到两个模态间精确的映射关系。我们采用自监督学习的方式,充分利用有限的成对样本来挖掘两个模态数据中丰富的隐含信息,从而有效减少网络的过拟,增加模型的泛化性能,使模型能够学习到两个模态隐空间精确的映射关系。在多个公开数据集上的实验结果表明,该方法能够从大脑响应数据中准确地重建出二值对比图像、手写数字和字母等视觉内容。3.提出了基于向量量化技术的跨模态生成模型。由于自然图像数据中同时包含高层语义信息和底层丰富的纹理、轮廓和色彩等结构信息,很难对自然图像的隐含表征和脑神经活动之间的映射关系进行准确地建模,所以传统的神经影像解码方法多是尝试在简单的字符图像上进行视觉重建。针对以上问题,本文结合向量量化技术的思想,提出基于自监督和向量量化技术的跨模态视觉生成模型。该模型可以提取复杂自然视觉图像的隐表征,并与神经活动的隐表征建立准确的隐射关系。实验结果表明所提出的方法在重建复杂自然图像方面比之前的方法有较明显的效果提升。