【摘 要】
:
随机动态系统和勒贝格采样系统在通讯网络、柔性制造、人工智能、军事指挥管理、生产生活等各个领域有着广泛的应用,是学习和优化领域科学者的研究热点。虽然,每个领域的科学研究对系统结构都有着各自的问题描述。但是,大多数研究方法都是围绕系统的最优性能为出发点,即寻找“最优策略”对系统性能进行优化。在性能势理论的基础上,本文将采用勒贝格采样技术,针对随机系统的优化问题进行策略研究。结合前人的观点,本文主要做了
论文部分内容阅读
随机动态系统和勒贝格采样系统在通讯网络、柔性制造、人工智能、军事指挥管理、生产生活等各个领域有着广泛的应用,是学习和优化领域科学者的研究热点。虽然,每个领域的科学研究对系统结构都有着各自的问题描述。但是,大多数研究方法都是围绕系统的最优性能为出发点,即寻找“最优策略”对系统性能进行优化。在性能势理论的基础上,本文将采用勒贝格采样技术,针对随机系统的优化问题进行策略研究。结合前人的观点,本文主要做了以下三方面的工作:1.针对随机动态系统的最优控制问题,采用策略迭代的方法进行求解。首先,基于性能势理论和反馈控制系统的最优性方程,给出了模型问题的策略迭代算法。然后,结合MATLAB仿真环境,在不需要辨识系统所有参数的情况下,运用该算法中的策略评价,可以从构造的样本路径上估计性能势。最后,实施策略改进以寻到最优策略来优化系统性能。2.针对勒贝格采样系统的最优控制问题,利用马尔可夫决策过程中的时间集结方法进行求解。首先,基于上一个工作中的最优控制问题的一般模型,给出了勒贝格采样系统的数学模型。然后,结合勒贝格采样技术、时间集结法、策略迭代算法和解析法对该模型进行求解,可以得出系统的最优性能以及相应的最优策略。最后,将勒贝格采样系统与传统的周期采样系统作比较,通过MATLAB仿真对比,得出勒贝格采样方法不仅可以改善系统性能,也能减小系统资源消耗。从而,在某种程度上解决了该类系统的“维数灾”问题。3.针对上述两类系统的优化问题,结合强化学习技术,解决了离散事件动态系统的最优控制问题。首先,基于样本路径和Q学习技术,给出了一阶连续时间随机动态系统的优化算法。然后,在性能势的基础上,引入一种在线策略迭代方法,又称SARSA算法,来求解该类系统的最优控制问题。最后,通过数值算例,与周期采样作比较,基于勒贝格采样的策略明显优于周期采样的策略。因此,勒贝格采样的方法更适用于实际的控制系统。
其他文献
在当前“庭审实质化”改革的背景下,强调切实发挥庭审在案件事实查明、证据意见发表与认定以及裁判理由形成功能的同时,亦强调要切实加强控辩双方之对抗性,实现“控辩对抗实
随着超分子化学地飞速发展,有关超分子化学的应用得到越来越多的重视,其中荧光传感器由于其对待测物质的高灵敏性,且易于操作,制备较为容易,已经成为超分子化学领域的重要研究方向。基于不同的化学结构已经开发了多种荧光传感器,其中基于大环化合物的荧光传感器是一个重要组成部分。本论文利用新一代大环化合物柱芳烃构建荧光传感器,并利用化学修饰方法将荧光传感器固定于纤维素纸表面,制备功能检测试纸,操作简单,携带方便
行为金融学的“有限关注理论”指出,关注是一种稀缺的认知资源。在有限的时间和精力下,个人只能选择性地将注意力分配在特定的关键信息上。在恒河沙数的上市公司新闻、公告等一系列事件中,哪些信息能够引起投资者选择性和主动的关注呢?本文聚焦特定时间段内上市公司发生的特定事件,选取2016年中国A股上市公司已发生的782个高管变更事件为研究样本,通过网络爬虫技术于新浪微博平台获取“投资者关注”相关数据,探讨了上
在现代性背景下,人们渴望为机械的,理性的生活工作模式找一个出口,但普通旅行不能满足人们对地方性的想象和构建,所以产生了逃离式旅行。本文以“逃离式旅行”为基本概念,主
自2018年开始,我国的债券市场发展得越来越快,成交量也在持续增加,在这个进程中,非国有企业债券信用风险不断加大的问题应当引起重视。国有企业因为有政府的隐性担保,所以债券信用风险比较低;而非国有企业大多为自然人所有,缺乏大股东的支持和用于抵押的资产,融资环境较为紧张,非国企债券的违约概率远大于国企债券。货币政策是我国调控宏观经济的主要政策之一,从近几年债券违约事件频繁发生的债券市场现状来看,货币政
地黄属(Rehmannia)是东亚特有分布类型,主要分布于我国,全属包含有六个物种。先前基于不同基因片段分析得到的种间关系相互矛盾,并没有统一结论。本文我们从群体水平出发,首
水泥行业是主要的大气污染物排放行业之一,排放的有害气体严重的危害了人类的健康、破坏了生态环境,其中SO_2是水泥生产过程中所排放污染物的主要成分,对环境带来了较严重的危害,国家对SO_2排放的管控愈来愈严格,大多数水泥厂存在着SO_2排放超标的问题,控制SO_2的排放对水泥行业来说显得尤为重要。本次研究利用管式炉,在不同的温度和催化剂条件下,研究CaCO_3对SO_2的固化作用,并且在实验开始前,
本文以Mg-Li合金为研究对象,通过添加微量的铝和稀土钇元素,在保证Mg-Li合金塑性的同时提高其强度,实验系统的研究了微合金化Mg-4Li-1Al-0.5Y合金原位拉伸断裂过程中的组织演
淀粉基发泡材料是一种绿色、可降解的填充型缓冲材料,对于代替我国传统石油基发泡材料以减少对环境的污染具有重要的意义。但是淀粉基发泡材料存在膨胀率低、机械性能差等缺
设S=(a1,...,am;b1,...,bn),其中a1,...,am和b1,...,bn是两个非负整数列。如果存在一个简单二部图G,它具有部分集{x1,...,xm}和{y1,...,yn},使得对于1≤i≤m有dG(xi)=ai和对于1≤j≤n有dG(yj)=bj,则我们称S是一个二部可图对。在这种情况下,我们称G是S的一个实现。与Kundu的k-因子定理类似,我们在本文中首先证明:如果(a