基于奖励调制的决策计算神经模型

来源 :清华大学 | 被引量 : 0次 | 上传用户：JessicaGu45

【摘要】

：

人们的行为往往受到利益的驱使，决策过程中获得的奖励对决策结果和学习过程均有重要的影响。然而，奖励信号本身并未包含任何与决策任务有关的信息。根据奖励信号能否完成复杂的

【作者】

：

程振波

【出处】

：

清华大学

【发表日期】

：

2012年期

【关键词】

：

决策再励学习突触可塑性胜者独享神经回路

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人们的行为往往受到利益的驱使，决策过程中获得的奖励对决策结果和学习过程均有重要的影响。然而，奖励信号本身并未包含任何与决策任务有关的信息。根据奖励信号能否完成复杂的决策任务，是神经科学的重要问题，具有重要的科学意义。本文基于奖励信号调制的可塑性，针对三个不同复杂程度的决策任务，提出了相应的计算神经模型。构建的模型考虑了其神经生理学意义下的可行性，获得了与动物实验相同的行为数据，甚至模型产生的神经数据与电生理数据亦具有相似的特征。研究结果表明，基于奖励调制的可塑性而构建的决策模型，可以完成许多不同复杂程度的决策任务，奖励信号在完成决策任务所需的学习过程中具有重要的作用。论文的工作包括：（1）基于奖励信号，提出了一种通过策略参数以满足决策目标的策略搜索模型，并证明了根据该策略参数进行决策的行为结果满足著名的匹配律。不仅给出了与已有模型不同的满足匹配律的策略，而且基于该策略的推导过程，对匹配律成立的机制给出了一个简单合理的解释。此外，讨论了利用皮层——基底神经节回路实现该决策模型的可能性。（2）基于奖励调制的突触可塑性，提出了一种可根据对数似然比进行决策的计算神经模型。通过建立具有信息整合与胜者独享特性的神经回路，结合奖励调制的突触可塑性学习算法，得到了决策行为与突触可塑性之间的对应关系，并推导出该模型可实现基于对数似然比的决策。此外，通过模型再现了动物实验中的行为结果，验证了模型的正确性。（3）基于奖励调制的突触可塑性，提出了一种可完成时延感知区分任务的决策模型。构建了用于完成记忆和比较两个认知计算的神经回路模型，该回路中神经元的发放模式与神经生理学实验数据相似，具有时变性和异质性特征。通过稀疏编码和奖励调制突触可塑性的学习算法，还可从该网络的神经元活性中得到与行为学数据类似的决策结果。

其他文献

插打塑料排水板促进软土路基的排水固结

塑料排水板由聚乙烯压制而成，在排水固结软土地基时作竖向排水之用。文章介绍塑料排水板的特点、施工方法及质量控制措施。

期刊

软土路基地基处理排水固结塑料排水板路基施工公路

果树修剪技术要领及应注意事项

阐述了果树修剪的作用、修剪技术及注意事项,通过对修剪技术的详细论述,以期为果树的种植、果实的高品质产出做出有益的理论探讨。

期刊

果树修剪技术要领注意事项

土桥车辆段停车列检库预应力混凝土折线形屋架体系吊装

结合车辆段工程实践,介绍屋架体系吊装中的技术关键控制要点:起重机械选择;吊装上弦杆件的裂缝验算;吊装方法和流程;允许偏差的检验与校正;吊装施工的安全.

期刊