Parallel Reinforcement Learning: A Framework and Case Study

来源 :自动化学报(英文版) | 被引量 : 0次 | 上传用户:wxtncxmmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
In this paper,a new machine leing framework is developed for complex system control,called parallel reinforcement leing.To overcome data deficiency of current data-driven algorithms,a parallel system is built to improve complex leing system by self-guidance.Based on the Markov chain (MC) theory,we combine the transfer leing,predictive leing,deep leing and reinforcement leing to tackle the data and action processes and to express the knowledge.Parallel reinforcement leing framework is formulated and several case studies for real-world problems are finally introduced.
其他文献
信托,作为与银行、保险、证券共同组成我国金融业的四大支柱之一,在我国的发展历程可谓“命途多舛”:自1979年我国第一家现代意义的信托公司—中国国际信托投资公司成立以来,到
时下移动存储的概念已经不再是单纯的存储,随着电脑使用的普及、移动办公更频繁、资料存储大容量的需求,市场对新一代移动存储产品提出了更高的要求。更大容量、更安全、应
The current work proposes a new and constructive proof for the Caratheodory’s theorem on existence and uniqueness of trajectories of dynamical systems.The key
经典心纹痛的特征是:反复发作胸骨后疼痛,因体力活动及情绪激动而诱发,休息或含硝酸甘油后缓解。但是这个经典的综合征还有许多变异和不典型的类型。1959及1960年,Prinzmeta
蜂鸣器是在调试仪表时消除迟滞阻尼的一种装置。在航天航空工业调试仪表中用得最多 ,在其他行业也有应用。蜂鸣器振动量级的大小对被调试仪表的精度影响很大 ,但多年来国内对
Using the semi-tensor product method,this paper investigates the modeling and analysis of networked evolutionary games (NEGs) with finite memories,and presents
本文旨在进一步评价异丙基肾上腺素激发试验的意义,并就其特异性和敏感性和标准活动平板运动试验相比较。方法:研究对象为35例准备作冠状动脉造影并符合下述标准的病人:(1)
学位
创意是平面广告设计的核心,灵感或艰苦的思考过程是获得创意的两种途径。创意培养则是教学活动的核心,教学过程涉及创意工具的运用与创新方法的导入。创意培养不仅有创意工具
周俐君作为继陈中、 吴静钰、 郑姝音等优秀女子跆拳道运动员后又一名年轻优秀的运动员,此次成功夺冠,意味着她已获大满贯比赛中的一金一银,向东京奥运会发起冲刺.跆拳道作为