强化学习算法的研究与实验

被引量 : 2次 | 上传用户:k88ls06
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,射电望远镜口径的设计越来越大,观测波段的宽度也越来越大,对其跟踪精度和指向精度的要求也越来越高。因此,如何对天线的震动问题进行抑制,变的非常的重要。本文的目的就是设计控制器使得大口径反射面天线底部良好跟踪的同时还尽可能的减少末端的柔性振动量。通过对强化学习的深入研究,搭建了一种基于Q-learning算法的柔性结构控制器,该控制器很好的解决了当奖赏函数和状态转移函数无法准确知道的情况下价值函数的具体计算问题。其次,搭建的基于Q-learning算法柔性结构控制器,会存在连续状态到离散状态的转
其他文献
进入21世纪,我国经济的可持续发展面临的能源和环境问题越来越突出。燃料乙醇作为燃料具有节能和环保的优点,在国际上广受重视。玉米油作为乙醇生产的重要的副产品,具有很好的经
随着计算机硬件和视觉理论的发展,计算机视觉技术逐渐开始应用到工业生产中,利用计算机视觉进行三维测量也已经成为测量领域中一个重要组成部分。在计算机视觉技术中一个难题就
非母语英文字母、汉语数字语音识别同属小词表的语音识别,对它们的研究具有重要的实用意义。尽管语音识别技术已经取得了很大进展,但由于英文字母自身存在严重的语音混淆现象,以
间歇过程是一种重要的现代工业生产方式。由于产品多样化、操作灵活、设备占用空间小等特点,间歇过程在生物制药、医药、聚合物、食品等领域有广泛的应用。同时,为保障间歇过
人脸检测是指在输入图像中确定所有人脸(如果存在)的位置与大小.人脸检测系统的输入是可能包含人脸的图像,输出是关于图像中是否存在人脸以及人脸的数目、位置、尺度、位姿等
水泥材料的物相组成及其尺寸分布是制约水泥水化产物的重要因素之一,所以微观结构特征描述的实现有助于水泥性能的准确预测。本文在对扫描电镜和X射线图像处理基础上,得到硅酸
远程监控系统主要是指具有数据采集、监视和控制功能的计算机系统,也就是人们常说的SCADA(supervisory control and data acquisition)系统。该系统涉及到计算机技术、网络技术
多目标优化问题(multi-objective optimization problems, MOPs)在实际生活中普遍存在,且非常重要。当MOPs的目标个数多于3个时,其求解难度大大增加,这类问题称为高维多目标优化
在现代化大型企业信息化管理体系建设中,设备管理信息系统被看作是重中之重.这不仅因为设备管理的各项制度、流程涉及的点多面广,而且作为企业从生产、市场、成本、物料、人
污水厂自动控制系统出现于上个世纪三十年代,但真正的发展在七十年代以后,在中国发展时间比较短,是在八十年代后.在污水厂的污水处理系统中采用自动控制技术,不仅可以提高系