论文部分内容阅读
人们的行为往往受到利益的驱使,决策过程中获得的奖励对决策结果和学习过程均有重要的影响。然而,奖励信号本身并未包含任何与决策任务有关的信息。根据奖励信号能否完成复杂的决策任务,是神经科学的重要问题,具有重要的科学意义。本文基于奖励信号调制的可塑性,针对三个不同复杂程度的决策任务,提出了相应的计算神经模型。构建的模型考虑了其神经生理学意义下的可行性,获得了与动物实验相同的行为数据,甚至模型产生的神经数据与电生理数据亦具有相似的特征。研究结果表明,基于奖励调制的可塑性而构建的决策模型,可以完成许多不同复杂程度的决策任务,奖励信号在完成决策任务所需的学习过程中具有重要的作用。论文的工作包括:(1)基于奖励信号,提出了一种通过策略参数以满足决策目标的策略搜索模型,并证明了根据该策略参数进行决策的行为结果满足著名的匹配律。不仅给出了与已有模型不同的满足匹配律的策略,而且基于该策略的推导过程,对匹配律成立的机制给出了一个简单合理的解释。此外,讨论了利用皮层——基底神经节回路实现该决策模型的可能性。(2)基于奖励调制的突触可塑性,提出了一种可根据对数似然比进行决策的计算神经模型。通过建立具有信息整合与胜者独享特性的神经回路,结合奖励调制的突触可塑性学习算法,得到了决策行为与突触可塑性之间的对应关系,并推导出该模型可实现基于对数似然比的决策。此外,通过模型再现了动物实验中的行为结果,验证了模型的正确性。(3)基于奖励调制的突触可塑性,提出了一种可完成时延感知区分任务的决策模型。构建了用于完成记忆和比较两个认知计算的神经回路模型,该回路中神经元的发放模式与神经生理学实验数据相似,具有时变性和异质性特征。通过稀疏编码和奖励调制突触可塑性的学习算法,还可从该网络的神经元活性中得到与行为学数据类似的决策结果。