结合先验知识的深度Q神经网络算法研究

来源 :合肥工业大学学报(自然科学版) | 被引量 : 0次 | 上传用户:heiefei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射,根据先验知识对动作选择过程的影响程度,将先验知识引入DQN算法,优化DQN算法的动作选择规则,降低其在探索过程中的动作选择随机性,并使用赛车游戏对算法进行训练。实验结果表明,PK-DQN算法能够更快收敛,有较高的学习效率,算法训练时长明
其他文献
以平流层飞艇为研究对象,建立飞艇热特性模型并分析主要的热影响因素.通过有限拆分法,建立完整的平流层飞艇热特性模型.为了使建立的热模型能够适用于不同类型的飞艇,将其外
汉字教学是语文教学的重要组成部分,但是因为汉字难学习,不少学生有畏难情绪,对汉字提不起兴趣,极大降低了教学效果。通过小故事的运用,充分调动学生学习汉字的情绪,可以帮助
应用FGOALS模式输出的未来气候情景数据驱动中国森林生态系统碳循环模型FORCCHN,模拟了东北地区森林生态系统碳收支未来可能的时空变化。预测结果表明:未来平衡发展情景(A1B)
河湖基本情况本次河湖基本情况普查全面系统查清了我省标准以上河流湖泊的名称、数量、分布以及主要特征等基本情况,编制了全省河湖名录,建立了河湖主要特征基础数据库,为河
目的制备泼尼松择时释放片,评价其体内外的释药。方法采用水不溶性包衣材料,干法压制包衣制备泼尼松择时释放片,用HPLC法测定泼尼松体外释放度,LC-MS/MS测定Beagle犬随机交叉
[目的]探讨家庭医生制度下IMPACT培训模式对居家长期照护者照护知识和技能的影响。[方法]采用IMPACT培训模式对200名居家照护者进行为期4周的培训,培训前后评价居家照护者对
“颜书记是个好人,为我家的事忙前忙后。”“是啊,自从颜书记来了以后,村民有啥事找他,他都愿意帮忙。”村民们交口称赞的人,就是现任铅山县新滩乡后坂村第一书记颜泰斌。
目的: 研究中西医结合治疗后, SARS患者康复期淋巴细胞功能状态和T细胞受体(TCR)Vβ24个亚家族表达的格局。方法: 应用流式细胞分析技术, 观察我院 76例康复期患者T细胞亚群,
在大数据背景下,人们处理信息的能力和水平都得到了提升,电子信息技术的发展速度不断加快。本文立足于大数据时代背景,对这一背景之下的软件工程关键技术种类以及其内涵进行
文章首先界定了我国近海捕捞业中的三个利益相关者——中央政府、地方政府和捕捞者;其次对各利益相关者之间的博弈分别进行了分析,认为中央政府与地方政府之间存在委托代理关系