【摘 要】
:
在大规模状态空间或者连续状态空间中,将函数近似与强化学习相结合是当前机器学习领域的一个研究热点;同时,在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难
【机 构】
:
苏州大学计算机科学与技术学院,符号计算与知识工程教育部重点实验室(吉林大学)
论文部分内容阅读
在大规模状态空间或者连续状态空间中,将函数近似与强化学习相结合是当前机器学习领域的一个研究热点;同时,在学习过程中如何平衡探索和利用的问题更是强化学习领域的一个研究难点.针对大规模状态空间或者连续状态空间、确定环境问题中的探索和利用的平衡问题,提出了一种基于高斯过程的近似策略迭代算法.该算法利用高斯过程对带参值函数进行建模,结合生成模型,根据贝叶斯推理,求解值函数的后验分布.在学习过程中,根据值函数的概率分布,求解动作的信息价值增益,结合值函数的期望值,选择相应的动作.在一定程度上,该算法可以解决探索和利
其他文献
研究一种基于特殊标定场的双目立体视觉相机标定方法.对相机的内外参数进行精确地标定,然后利用标定参数进行图像校正.实验表明,采用该方法左右相机图像的极线误差不大于0.26
高校是知识创新和高层次创新型人才培养的基地。分析了高校固体废物处理与处置课程课堂教学存在的问题,对其课堂教学模式、教学方法和考核方式等进行了改革探索,明显提高了课
研究9种阴离子基团不同的钠盐对活性红KN-BS电化学染色效果的影响.染色工艺为电极Pt-Ag/Agcl,电压8V,30℃起染,35min后升温至60℃(12℃/min),加Na2C03固色,保温50min.测试电化
以鄂尔多斯高原碱湖的钝顶螺旋藻S 1、鄂尔多斯螺旋藻S 2、引进的钝顶螺旋藻S 3和极大螺旋藻S 4为材料,采用两种方法分别测定了其DNA和RNA的含量.结果如下:改良二苯胺法测定
生命教育是一个受到国内外关注的研究领域。近十年来我国大学生生命教育研究有了一定进展,但对大学生生命教育的内涵尚未形成一致的看法,大学生生命教育的开展也有一些困境和
为明确不同尺度的干旱特征及其对气候变化的响应,选取1961-2016年京津冀地区24个气象站逐日气象观测数据,计算不同时间尺度的标准化降水蒸散指数(SPEI),应用Mann-Kendall突变检
由于竞争压力大、战略规划需要调整等原因,企业通过采取并购方式达到扩大规模、降低生产成本、提高市场份额、实现发展战略扩张等目的。企业在进行并购活动的过程中,在获取利
辛二胺是一种重要的化工原料,其性质活泼,应用较为广泛,在医药、工程塑料、洗涤剂等领域均有应用。可以对DNA进行修饰,抑制HIV-1型病毒的转录复制,可以用来制备可以结合银纳
通过重新定位对人性和个性的追求,在设计中体现天然的意趣。将传统文化中“飞白”艺术与现代平面设计相融合,强调设计与人心灵上的共鸣,让世界看到更多的是“中国设计”而不
介绍了在临时封闭高速公路交通的环境中,在短时间内采用控制爆破技术快速拆除高速公路拱型跨线天桥,并迅速恢复交通的实例,对工艺流程、爆破切口、孔网参数、起爆网路、安全