论文部分内容阅读
信息物理系统融合并发展了现有的通信、无线网络、分布式、人工智能等技术,构建了物理空间与信息空间中人、机、物、环境、信息等要素的相互映射、适时交互、高效协同,成为集计算、通信与控制于一体的新一代智能系统。作为智能制造的核心,信息物理系统的发展已受到世界各国的重视,如“美国竞争力计划”,欧盟的“ARTEMIS”项目等。我们党和政府也高度重视信息物理系统的发展。党的十九大报告和2018年两会精神均强调要促进信息物理系统人工智能行业产、学、研、用的交流与合作。近年来,网络攻击事件频发,对国家安全、经济发展、基础设施安全、人民生命财产造成了极大威胁,这使得如何保证信息物理系统的安全成为亟待解决的重大问题。为促使该类问题的解决,国家自然科学基金委增加了信息物理系统相关科研项目的立项,科技部也立项了信息物理系统安全相关的国家重点研发计划。虽然信息物理系统安全问题的研究不断取得突破,但是仅仅依靠单一学科知识,如控制学科、计算机科学学科或者网络信息安全学科技术进行信息物理系统安全设计的不足日益凸显。如何融合多学科技术手段解决信息物理系统的安全问题已成为亟待解决的重要问题。围绕信息物理系统安全问题研究中的难点以及关键科学问题,本文结合控制理论(滑模控制、最优控制等)、机器学习(深度强化学习)、信息论(信息熵)以及博弈论(零和博弈)、网络信息安全(移动目标防御)等多学科技术手段,研究如何应对恶意网络攻击、设计智能安全控制算法保证信息物理系统安全的问题。论文具体内容以及研究方法概述如下。1.第二章研究信息物理系统中传感器受到恶意拒绝服务攻击时安全控制器设计问题。拒绝服务攻击能够造成数据丢失。本章引入拒绝服务攻击驻留时间和拒绝服务攻击频率概念描述攻击行为。根据攻击的不同效果,即拒绝服务攻击是否成功,本章将描述物理进程动态的系统方程描述为切换形式。进而设计了一种安全滑模控制器保证系统指数稳定。为保证描述攻击行为的模型有效性,本章将系统防御者和攻击者在零和博弈框架下进行建模,基于零和博弈设计了一种有效的混合防御机制。在该防御机制下,提出了一种基于防御机制的安全滑模控制设计方法。基于该方法,在拒绝服务攻击情形下,信息物理系统依然可以保证预期性能。与已有结果相比,本章节的方法主要具有两方面的优势。首先,本章节根据攻击效果将物理系统建模为切换系统,进而利用类似于平均驻留时间的方法解决了系统稳定性分析与安全控制器设计问题。其次,本章节引入零和博弈对防御者和攻击者建模,并设计了防御策略,保证了攻击模型的有效性。2.第三章研究信息物理系统的安全跟踪控制问题。在设计过程中考虑控制中心到执行器端的通讯网络受到拒绝服务攻击,该攻击能够造成网络拥塞,进而阻止控制信号传输给执行器。本章节主要目的是如何在系统模型信息完全未知情形下设计最优跟踪控制器,并分析拒绝服务攻击对跟踪性能造成的影响。首先,基于给定的物理对象的系统结构以及跟踪信号模型构造物理对象与参考模型的增广系统,进而采用动态规划技术推导该增广模型的黎卡提方程。其次,分析了拒绝服务攻击概率对跟踪性能的影响,给出了拒绝服务攻击的临界条件,超出该条件约束范围则无法设计最优跟踪控制器,系统跟踪性能无法保证。第三,为解决无模型情形下的跟踪控制设计问题,本章引入强化学习方法设计跟踪控制器。3.第四章研究在执行器虚假数据注入攻击情形下信息物理系统基于零和博弈的安全控制器设计问题。对于物理层中的物理对象,本章假设其动态方程可由一个线性时不变离散模型描述。设计过程中考虑过程噪声和测量噪声对控制器设计的影响。引入卡尔曼滤波估计物理对象的系统状态。本章首先将系统防御方和攻击者描述为零和博弈中的两个玩家,进而在零和博弈框架下给出了最优的二次型成本函数。通过使用动态规划方法,本章给出了最优攻击策略下最优控制策略设计准则,并证明了该策略可以保证系统性能且成本函数有界。此外,本章给出了攻击概率的临界值,超出这个临界值则成本函数的有界性以及物理对象的稳定性无法保证。4.第五章研究执行器虚假数据攻击情形下信息物理系统的主动防御控制问题。基于移动目标防御机制以及强化学习方法,本章提出了一种新颖的主动被动混合防御控制设计方案。首先,本章将系统(A,B)描述为一系列包含可控子系统(A,Bl)的切换模型,进而基于该切换模型设计移动目标防御机制。基于移动目标防御机制,随机选择子系统(A,Bl)设计控制策略用于控制整个系统,进而阻止攻击者的有效攻击。其次,本章设计攻击诊断以及攻击分离机制用于精确定位受攻击执行机构,进而将受攻击的执行机构从移动目标防御机制中排除。第三,基于强化学习方法和零和博弈理论设计了被动安全控制算法以应对无可控制子模型可更新的极端情形。进而基于上述设计,提出了主动、被动混合的防御控制算法,保证受控系统在极端攻击情形下能够有效缓解攻击影响,维持系统性能。5.第六章研究信息物理系统执行器虚假数据注入攻击情形下基于深度强化学习的安全控制问题。本章节将受攻击情形下的信息物理系统动态方程描述为一个马尔科夫决策过程。基于建立的马尔科夫过程,将虚假数据注入攻击情形下的信息物理系统安全控制问题转化为仅使用数据的决策学习问题。参照当前最新的柔性actor-critic强化学习算法,本文提出了一种基于李雅普诺夫函数的柔性actor-critic强化学习算法,基于该算法离线训练深度神经网络,进而获得安全控制策略。本章节不仅证明了提出的深度强化学习算法的收敛性,而且解决了系统使用强化学习获得的策略时的稳定性分析问题,给出了稳定性证明。此外,本章节在设计过程中完全基于数据,所设计的安全控制算法对不确定性、外部扰动等因素具有强鲁棒性。