结合先验知识的深度Q神经网络算法研究

来源 :合肥工业大学学报(自然科学版) | 被引量 : 0次 | 上传用户：heiefei

【摘要】

：

深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge

【作者】

：

褚伟茹琦任明仑

【机构】

：

合肥工业大学过程优化与智能决策教育部重点实验室,合肥工业大学管理学院

【出处】

：

合肥工业大学学报(自然科学版)

【发表日期】

：

2019年7期

【关键词】

：

深度学习强化学习深度Q神经网络(DQN) 先验知识

【基金项目】

：

国家自然科学基金资助项目(71531008)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射,根据先验知识对动作选择过程的影响程度,将先验知识引入DQN算法,优化DQN算法的动作选择规则,降低其在探索过程中的动作选择随机性,并使用赛车游戏对算法进行训练。实验结果表明,PK-DQN算法能够更快收敛,有较高的学习效率,算法训练时长明

其他文献

平流层飞艇热敏感因素分析

以平流层飞艇为研究对象,建立飞艇热特性模型并分析主要的热影响因素.通过有限拆分法,建立完整的平流层飞艇热特性模型.为了使建立的热模型能够适用于不同类型的飞艇,将其外

期刊

飞艇影响因素热特性平流层

小故事在汉字教学中的应用

汉字教学是语文教学的重要组成部分,但是因为汉字难学习,不少学生有畏难情绪,对汉字提不起兴趣,极大降低了教学效果。通过小故事的运用,充分调动学生学习汉字的情绪,可以帮助

期刊

小故事汉字教学作用

未来气候情景下中国东北森林生态系统碳收支变化

应用FGOALS模式输出的未来气候情景数据驱动中国森林生态系统碳循环模型FORCCHN,模拟了东北地区森林生态系统碳收支未来可能的时空变化。预测结果表明:未来平衡发展情景(A1B)

期刊

东北地区森林生态系统碳收支未来气候情景模拟

河北省第一次水利普查成果关键内容解读

河湖基本情况本次河湖基本情况普查全面系统查清了我省标准以上河流湖泊的名称、数量、分布以及主要特征等基本情况,编制了全省河湖名录,建立了河湖主要特征基础数据库,为河

期刊

水利普查普查数据灌溉面积农村供水工程塘坝工程河北省内容解读

泼尼松择时释放片的制备及其体内外评价

目的制备泼尼松择时释放片,评价其体内外的释药。方法采用水不溶性包衣材料,干法压制包衣制备泼尼松择时释放片,用HPLC法测定泼尼松体外释放度,LC-MS/MS测定Beagle犬随机交叉

期刊

泼尼松风湿性关节炎择时释放片延迟释放压制包衣LC-MS/MS药动学

家庭医生制度下IMPACT培训模式对居家长期照护者照护知识和技能的影响

[目的]探讨家庭医生制度下IMPACT培训模式对居家长期照护者照护知识和技能的影响。[方法]采用IMPACT培训模式对200名居家照护者进行为期4周的培训,培训前后评价居家照护者对

期刊

家庭医生制度IMPACT培训模式培训居家长期照护知识技能

将第一书记的责任担当烙在心中

“颜书记是个好人,为我家的事忙前忙后。”“是啊,自从颜书记来了以后,村民有啥事找他,他都愿意帮忙。”村民们交口称赞的人,就是现任铅山县新滩乡后坂村第一书记颜泰斌。

期刊

新滩乡驻村第一书记村干部

SARS患者康复期T细胞亚群、活化状态及TCRVβ表达格局的分析

目的: 研究中西医结合治疗后, SARS患者康复期淋巴细胞功能状态和T细胞受体(TCR)Vβ24个亚家族表达的格局。方法: 应用流式细胞分析技术, 观察我院 76例康复期患者T细胞亚群,

期刊

SARS康复期T细胞亚群TCRVβ24亚家族

解析大数据时代下软件工程关键技术

在大数据背景下,人们处理信息的能力和水平都得到了提升,电子信息技术的发展速度不断加快。本文立足于大数据时代背景,对这一背景之下的软件工程关键技术种类以及其内涵进行

期刊

大数据软件工程关键技术

我国近海捕捞业中的利益博弈研究

文章首先界定了我国近海捕捞业中的三个利益相关者——中央政府、地方政府和捕捞者；其次对各利益相关者之间的博弈分别进行了分析，认为中央政府与地方政府之间存在委托代理关系

期刊

近海捕捞利益相关者博弈利益协调保障措施

结合先验知识的深度Q神经网络算法研究

与本文相关的学术论文