基于奖励调制的决策计算神经模型

来源 :清华大学 | 被引量 : 0次 | 上传用户:JessicaGu45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人们的行为往往受到利益的驱使,决策过程中获得的奖励对决策结果和学习过程均有重要的影响。然而,奖励信号本身并未包含任何与决策任务有关的信息。根据奖励信号能否完成复杂的决策任务,是神经科学的重要问题,具有重要的科学意义。本文基于奖励信号调制的可塑性,针对三个不同复杂程度的决策任务,提出了相应的计算神经模型。构建的模型考虑了其神经生理学意义下的可行性,获得了与动物实验相同的行为数据,甚至模型产生的神经数据与电生理数据亦具有相似的特征。研究结果表明,基于奖励调制的可塑性而构建的决策模型,可以完成许多不同复杂程度的决策任务,奖励信号在完成决策任务所需的学习过程中具有重要的作用。论文的工作包括:(1)基于奖励信号,提出了一种通过策略参数以满足决策目标的策略搜索模型,并证明了根据该策略参数进行决策的行为结果满足著名的匹配律。不仅给出了与已有模型不同的满足匹配律的策略,而且基于该策略的推导过程,对匹配律成立的机制给出了一个简单合理的解释。此外,讨论了利用皮层——基底神经节回路实现该决策模型的可能性。(2)基于奖励调制的突触可塑性,提出了一种可根据对数似然比进行决策的计算神经模型。通过建立具有信息整合与胜者独享特性的神经回路,结合奖励调制的突触可塑性学习算法,得到了决策行为与突触可塑性之间的对应关系,并推导出该模型可实现基于对数似然比的决策。此外,通过模型再现了动物实验中的行为结果,验证了模型的正确性。(3)基于奖励调制的突触可塑性,提出了一种可完成时延感知区分任务的决策模型。构建了用于完成记忆和比较两个认知计算的神经回路模型,该回路中神经元的发放模式与神经生理学实验数据相似,具有时变性和异质性特征。通过稀疏编码和奖励调制突触可塑性的学习算法,还可从该网络的神经元活性中得到与行为学数据类似的决策结果。
其他文献
塑料排水板由聚乙烯压制而成,在排水固结软土地基时作竖向排水之用。文章介绍塑料排水板的特点、施工方法及质量控制措施。
阐述了果树修剪的作用、修剪技术及注意事项,通过对修剪技术的详细论述,以期为果树的种植、果实的高品质产出做出有益的理论探讨。
结合车辆段工程实践,介绍屋架体系吊装中的技术关键控制要点:起重机械选择;吊装上弦杆件的裂缝验算;吊装方法和流程;允许偏差的检验与校正;吊装施工的安全.
乡土植物的地域色彩较为浓重,将乡土植物应用到城市园林绿化景观营造中,将会起到一种别样的效果。在城市园林绿化过程中,充分运用乡土植物,可以增强景观营造的效果,有效地促
结合秦沈客运专线监理工程的实践,总结提高铁路新线建设监理和管理水平的经验与体会.
如何营造更好的居住环境,住宅室外交往空间的营造成为了主要的改造手段,中国南北方不管是在地理条件还是气候条件上都差异巨大,自然室外交往空间也存在很大的差距;南方占有优
通过陈述泌阳罗汉山的概况,对其古文化、宗教文化与旅游文化进行详细分析,可为全国同类象形山文化研究提供参考
阐述地铁八通线土桥车辆段测量总体控制,包括控制网布置、控制网平差、高程控制等.
本文论述了重力梯度仪在惯性导航、地球科学、地质科学中的重要作用以及重力梯度仪的现状和前景,着重评述了旋转加速度计重力梯度仪、静电加速度计重力梯度仪和超导重力梯度仪
会议