TD-BP强化学习算法在五子棋博弈系统中的应用

来源 :沈阳理工大学学报 | 被引量 : 0次 | 上传用户:xixicoco606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
局面估值的准确性是决定棋类游戏水平高低的一个重要因素。针对使用静态估值函数的不足,提出了TD-BP强化学习算法,结合博弈中常用的极小极大搜索算法和经过历史启发增强的PVS搜索算法,实现了一种自适应性较强的五子棋自学习程序。实验结果表明,使用该算法的程序经过较短时间的训练后达到了较好的下棋水平.
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
实施乡村振兴战略的背景下,党和国家高度重视乡村人居环境规划。村庄的公共空间作为村民生活的主要场所,其功能重塑、科学利用等决定着村庄人居环境的改善状况。文章着眼于功
《油田开发地质学》一书讲述了合理开发油田开展的地质综合研究,通过有效建立油气开采与驱替系统,实现用最少的投入采出更多油气,达到提高油田采收率和经济效益的最终目标。
今天,我们在新的历史条件下进行马克思主义新闻观研究。与过去时代(改革开放前,社会主义市场经济体制确立前,中华人民共和国建立前)相比,由于社会政治、经济、文化等方面的情
通信专业中通信系统是整个课程的关键,而通信系统复杂、抽象,simulink系统仿真结果清晰、明了。以2ASK信号的包络解调及相干解调为例,阐述simulink系统仿真对教学的深刻意义
人类辅助生殖技术对人类自然出生方式和自然生命的深度干预与技术控制,使儒家传统生命伦理观遭遇伦理挑战,以致儒家生命伦理难以对人类辅助生殖技术的应用提供及时有效的价值