智能安全攸关系统中强化学习的研究与应用

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:guaitaidejiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习,特别是近些年兴起的深度强化学习在很多领域中都成功地获得了应用。但与此同时,由于强化学习中安全性保障机制的缺乏,人们对其安全性的担忧和需求也日益强烈,使得强化学习难以应用于智能安全攸关系统中。在智能体所处的环境中充满了各种不确定因素,仅仅依靠最大化长期回报的策略学习方式难以应对系统中的各种风险。此外,环境中的信息扰动也为智能体的安全决策带来了很大的干扰,威胁着智能体和其所处的物理环境的安全。形式化方法基于严谨的数学理论为安全攸关系统的安全性保障提供了可信的理论和工具支持。但已有的形式化方法并不能很好地适用于智能体所要应对的复杂环境。本文针对强化学习的安全性问题和已有方法的不足,借助于形式化建模与验证理论和工具,提出了一种通用的安全强化学习方法,采用运行时验证的方式为强化学习提供安全性保障。本文的主要工作包括:(1)提出了概率时距计算树逻辑(Probabilistic interval Computation Tree Logic,Pi CTL),并形式化地定义了其语法语义,以用于对不确定的实时系统进行系统属性/约束的描述。此外,在PRISM的基础上进行二次开发,实现了对Pi CTL公式的验证。(2)提出一种安全学习算法,称之为基于监视器的安全控制(Generic Safe Control with Supervisor,GSCS),将形式化验证与强化学习有机结合起来,将安全性约束转化为算法所学习到的策略的一部分。基于形式化验证的控制监视器实时监控系统状态,对智能体的决策进行安全性验证,当且仅当该决策将会使系统发生危险时对系统的运行进行干预。此外,对存在信息扰动的系统,本文引入了安全阈值的概念,监视器采取最大安全策略尽可能将风险最小化。(3)以汽车自适应巡航系统为蓝本,设计了一个基于Open AI Gym框架的模拟评估环境,基于双深度Q网络(Double Deep Q-network,DDQN)构建了一个智能体。利用该环境,评估了GSCS算法在不同实验条件下的表现,并与经典的强化学习算法相比较,证明了GSCS算法的可行性和有效性。
其他文献
我国传统的乡村公共空间作为容纳村民日常生活及邻里交往的物质空间,是村民可以自由进入并展开日常社会交往、参与公共事务的主要场所,具有愉悦身心、提供公共服务、促进乡村社区整合等多重功能。近年来,党和政府高度重视乡村建设,提出乡村发展要“让居民望得见山、看得见水、记得住乡愁”,2018年中央一号文件进一步提出“发展乡村共享经济、创意农业、特色文化产业”的新思路。由此,我国部分基础条件较好的乡村公共空间开
本文研究如下分数阶非线性薛定谔方程iψt=(-Δ)sψ+f(|ψ|2)ψ,x∈T=R/Z,(0.1)在Dirichlet边界条件ψ(t,0)=ψ(t,1)=0,且满足ψ(t,-x)=-ψ(t,x)时拟周期解的存在性问题。其中(-Δ)s是Laplacian算子的分数阶,即Laplace-Beltrami算子-Δ的s次幂,s∈S=(21,1)。f是在原点邻域内的解析函数。本文的主要结论是:以s作为参数
基于NiOx空穴传输层的反型钙钛矿太阳能电池(PSCs)具备制备工艺简单、制备所需温度低、成本低等优点。近年来,NiOx基PSCs的功率转换效率(PCE)突飞猛进,达到20%以上。但是,一些典型修饰掺杂材料对PSCs的修饰原理相对简单,限制了NiOx基倒置PSCs的性能提升。此外,PSCs在高湿度、高温和紫外线照射环境下结构不稳定,容易分解。本文以基于Sr@NiOx(即掺入少量Sr离子的NiOx)
供应链,顾名思义,是在生产和销售商品的环节中,供应商、生产商、零售商以及消费者之间形成的链式结构。近年来,随着全球化的兴起,人们对供应链的公平性、隐私性、安全性和效率的要求显著提高。然而,供应链在多个方面仍存在一些问题,比如在信息流中,上游企业和下游企业对商品的需求量与销售量等信息的了解不对称;在商品的流通过程中,消费者买到质量不合格的商品难以追溯其源头企业;以及在资金流中,上游企业和下游企业之间
本文主要研究了圆柱形图,即路和圈的笛卡尔乘积图(Pm×Cn)的最多叶子生成树和最大不可分独立集问题.第一章介绍了最多叶子生成树、最大不可分独立集、最小连通点覆盖问题的研究现状.第二章研究了圆柱形图(Pm×Cn)的最多叶子生成树问题.根据生成树的特点,给出了Pm×Cn(m=2,3)最多叶子生成树的叶子数目.再根据生成树中2-度点和3-度点的数目,得出了Pm×Cn生成树叶子数目的上界.最后通过构造给出
尽管量子色动力学(QCD)被公认为描述强相互作用的基本理论,但夸克禁闭使得人们很难直接使用该理论进行中低能区的解析计算。为此人们发展了数值的格点QCD进行非微扰计算,但目前在数值计算时需采用大于物理值的夸克质量,计算的结果需要进一步外推至物理值区域,因此仍需系统自洽的解析结果进行比对。这就使得QCD的低能有效场论——手征微扰理论,进入舞台,并在对介子系统的研究中取得了极大的成功。但是这个理论在运用
作为下一代云计算范式,无服务器计算将云资源抽象为函数(functions),由云服务商负责配置、管理、部署、缩放用户应用所需的函数资源,并提供百毫秒级别的计费粒度;而用户则专注于程序编写,仅需为程序实际运行占用的时间及资源付费。基于上述高效率、低成本等优势,利用无服务器计算进行分布式深度神经网络(Distributed Deep Neural Network,DDNN)训练正成为一大趋势,用户无需
基于图像非局部的相似块的稀疏性,核范数在图像处理各个领域得到了广泛的应用.然而,核范数对不同大小的奇异值同等对待,因而可能会导致求解的结果与最优的结果相差甚远.事实上,往往只需图像较大的奇异值就能重建图像,较大的奇异值蕴含了重要的图像信息,而较小的奇异值则很可能含有噪声信息.为了尽可能的避免核范数所产生的局限性,对不同大小的奇异值应该采用不同的处理方式.非凸正则化函数在稀疏优化领域有着重要作用,其
在小学"单元-课时"教学中,教师要对"单元""课时"的关联作辩证性考量,对"单元-课时"教学作功能性探析。实践中积极探寻"单元-课时"的实施路径,以大问题、大任务、大主题等为抓手,积极发掘相关资源、素材等,让学生更主动、更积极、更富有个性地学习。在这个过程中,有效地提升学生的数学学习力,发展学生的数学核心素养。
近年来,针对低温工业烟气氮氧化物脱除技术的研究受到广泛关注,其中新型低温SCR催化剂的开发是该技术的关键,新型SCR催化剂的主要特点是活性温度窗口宽和低温下抗硫抗水性强。本文针对丰富的废弃锰矿区含锰土壤资源,研究了采用废弃锰矿区含锰土壤掺入活性物制备低温SCR脱硝催化剂工艺和催化剂脱硝性能,开发了一种廉价高效的Ce/Mn-S低温SCR脱硝催化剂,实现了锰矿区废弃土壤的资源化利用。主要研究内容和取得