论文部分内容阅读
随机控制是现代控制理论中非常重要的一个组成部分。在我们所研究的随机控制问题中,我们的目标是随时通过观察到的信息,来选择合适的控制,使得随机动力系统中的某个指标的泛函达到一个最优的情形。例如,在股票市场中,通过随时更新自己的投资组合使得在某个时刻的财富值达到最大,这就可以看作是一个随机控制问题。解决随机控制问题有两个著名的经典方法,分别是随机最大值原理(SMP)和动态规划原理(DPP)。前者得到了最优控制满足的必要条件,而后者主要采用由局部到整体的思想,通过与偏微分方程建立联系来找到最优控制。本文主要采用的是最大值原理的方法。然而,在大部分的关于随机控制的工作中,我们都假设所有的信息可以被知道,也就是说控制系统中的所有布朗运动的信息都能被观测。很容易想到这种假设未必是合理的,有很多时候我们并不能了解所有信息,而只能知道一部分。所以,部分观测的随机控制系统也慢慢地走入了研究者的视野。数学中的平均场方法在研究经济学、金融学、物理学和量子化学等领域时的应用越来越广泛。近年来,很多学者将精力投入了平均场问题的研究。所谓的平均场随机微分方程和平均场倒向随机微分方程,即指方程的系数不仅依赖于方程的解的轨道,还依赖于解的分布。平均场SDE和BSDE理论的飞速发展,为我们研究平均场随机控制问题提供了强有力的理论工具。在本篇论文中,我们主要研究了一类带部分观测的平均场情形的随机控制问题。由于我们后续研究的随机控制问题的需要,我们首先研究了一类定义在某个概率空间中的Girsanov密度集合上的函数的可微性,利用Frechet导数来给出了函数关于密度的导数的定义,并进一步与定义在P2(Rd)上的函数的导数建立了联系。在得到了可微性结果之后,我们利用它来研究了一类一般的带部分观测的平均场随机控制问题。控制系统是一类新型的依赖于解的条件分布的平均场随机微分方程,我们首先证明了它的适定性,得到了其弱解的存在性和依分布唯一性。进而利用对偶原理,得到了在控制域不要求是凸的,并且控制系统的系数关于控制项没有任何光滑性条件的情况下的最大值原理。下面我们将进一步详细介绍本论文的内容与结构。在第一章引言中,我们介绍了本文主要研究的问题,以及问题的研究背景与动机。在第二章中,我们研究如此定义的关于密度的函数FQ:LQ→R,其定义为FQ(L):=f((LQ)ξ),L∈LQ,其中f:P(Rd)→R是任意给定的一个函数,ξ为一给定的随机变量,LQ表示概率测度Q下的Girsanov密度的集合。我们给出了函数FQ可微的定义,并证明了我们可以使用一个Borel可测函数g:Rd→R来刻画其导数,且这个函数依赖于(Q,L,ξ)仅通过分布(LQ)ξ。接下来,我们研究了关于密度的导数与关于一个联合分布的函数在适当的概率测度空间上的偏导数的关系。本章的主要创新点:首次研究了关于密度的函数的可微性的刻画和导数的性质,并得到了其与关于联合分布的函数的偏导数之间的联系。在第三章中,我们进一步研究了关于密度的导数,并得到了关于密度的导数和定义在P2(Rd)上的函数的导数的关系。本章的内容是对第二章中内容的推广与延续,我们证明了若f:P2(Rd)→R满足可微性假设的话,那么我们讨论的关于密度的导数和f关于概率测度的导数存在联系,即后者可以看作是前者的导数。我们分别讨论了一维和高维情形,且在讨论过程中,我们先证明了上述结论在光滑维纳泛函的情形下成立,然后利用了逼近的性质,得到了想要的结果。在本章的最后,我们将得到的结论和基于随机变量的密度函数的平均场理论(参见[10])建立了联系。本章的主要创新点:推广了关于密度的导数的结果,并建立了其与关于概率测度的导数的联系。在证明过程中应用了 Malliavin分析和Girsanov变换等理论工具,为解决类似问题提供了新的思路。上述两章来自于论文:R.Buckdahn,J.Li,H.Liang.Derivative over Wasserstein spaces along curves of densities.已投稿。在第四章中,我们介绍了一类带部分观测的平均场随机控制问题。控制系统为一平均场随机微分方程组,分别为状态过程和观测过程,且系数非线性依赖于观测过程的轨道和状态过程关于观测过程生成信息流的条件期望的分布。我们首先证明了如此形式的带“闭环”的平均场随机微分方程组的弱解的存在性和依分布唯一性,进而考虑其控制问题。在第三章所得求导数结论的帮助下,证明了其一、二阶变分方程,并利用对偶原理刻画了最优控制所满足的必要条件。由于我们这里并不需要控制域是凸的,而且控制系统的系数并不需要关于控制项满足良好的光滑性,所以我们这里得到的是Peng的随机最大值原理。在导出最大值原理的过程中,我们所用到的变分方程和伴随方程涉及到了新型的平均场随机微分方程和倒向随机微分方程。本章的主要创新点:将Buckdahn,Li和Ma[20]的工作推广到了系数非线性依赖于条件分布且控制域非凸的情形,证明了最优控制需要满足的必要条件,并在过程中得到了一些新型的平均场随机微分方程和倒向随机微分方程的解的适定性质。本章来自于论文:J.Li,H.Liang.A general mean-field stochastic maximum principle with partial observations.Preprint.下面是本文的章节目录和主要内容。一、第一章引言;二、第二章关于密度的导数;三、第三章关于密度的导数与P2(R)上的导数的关系;四、第四章带部分观测的平均场随机控制问题。第二章:我们研究关于密度的函数FQ:LQ→R,定义为FQ(L):=f((LQ)ξ),L∈LQ,其中f:P(Rd)→R是任意给定的一个函数,ξ为一给定的随机变量,LQ表示概率测度Q下的Girsanov密度的集合。我们给出了函数FQ可微的定义,并证明了我们可以使用一个Borel可测函数g:Rd→R来刻画其导数,且这个函数依赖于(Q,L,ξ)仅通过分布(LQ)ξ。接下来,我们研究了关于密度的导数与关于一个联合分布的函数在适当的概率测度空间上的偏导数的关系。定义空间LQ:={L∈L1(Ω,F,Q)|L>0,EQ[L]=1}。我们令ξ∈L0(Ω,F,Q;Rd)是任意给定的。对L∈£Q,(LQ)ξ ∈P(Rd)定义为#12其中bB(Rd):={φ:Rd→Rd|φ是有界Borel函数}。我们现在任意固定函数f:P(Rd)→R,并定义FQ(L):=f((LQ)ξ),L∈LQ.(0.0.1)在Frechet导数的意义下,我们如下定义(0.0.1)式给出的函数的可微性。定义2.2.1.给定L∈LQ,我们称由(0.0.1)定义的F:LQ→R是在L处可微的,若存在某个(dFQ)(L)∈L(L01(Ω,F,Q),R)使得FQ(L’)-FQ(L)=(DFQ)(L)(L’-L)+o(|L’-L|L1(Q)),(0.0.2)对任意的 L’∈LQ且|L’-L|L1(Q)→0。我们可以证明上面的定义是明确的。引理2.2.2.对任意给定的L∈LQ,我们假设函数F:LQ→ R在上面定义的意义下是在L处可微的。那么满足(0.0.2)的连续线性泛函(DFQ)(L)∈ L(L01(Ω,F,Q),R)是唯一的。关于密度的导数具有如下性质。对L∈LQ我们令QL:=LQ。显然QL是(Ω,F)上的概率测度,且LQL={L’∈L1(Ω,F,QL;R+):EQL[L’]=EQ[L’L)=1}。引理2.2.3.令L∈LQ,则函数FQ:£Q → R在L处可微当且仅当函数FQL:£QL→R在L0=1处可微。而且,若FQ:LQ→ R在L处可微(则等价地,FQL:LQL→R在L0=1处可微),则有如下关系成立DFQL(1)=DFQ(L)-EQL[DFQ(L)],QL-a.s.(~Q-a.s.),DFQ(L)=DFQL(1)-EQ[DFQ(1)],Q-a.s.结合上面的引理,和我们接下来给出的定理,我们可以给出关于密度的导数的一个明确的定义,进而将其刻画为一个Borel函数,且这个函数仅通过分布(QL)ξ依赖于(Q,L,ξ)。定理2.2.1.假设FQL:LQ→R是在Lo=1处可微的。那么存在一个有界Borel函数g:Rd→R使得DFQL(1)=g(ξ),Q-a.s.。而且,g依赖于(Q,L,ξ)仅通过分布(QL)ξ。由上面的定理,我们可以给出如下定义:(?)1F((QL)ξ,x):=g(x),x ∈Rd.我们观察到这个函数是(QL)ξ(dx)-a.s.定义明确的,并且(?)1F(QL)ξ,ξ)=g(ξ)=DFQL(1),QL-a.s.。在下一小节我们考虑关于密度的导数与偏导数的关系,本章所用预备知识主要参见[16]。对L∈ 定义如下函数GQ,ξ(L)=G(Q(L,ξ))=f((LQ)ξ)=FQ(L),则我们有如下偏可微的定义。定义2.3.1.映射G:P2,0(R × Rd)→称为是关于QL|ξ在Q(L,ξ),处(偏)可微的,如果GQ,ξ:L2(Ω,F,Q)→R在L处是Frechet可微的。引理2.3.1.给定函数f:M(Rd)→使得对所有概率测度Q,如下定义的函数G:P2,0(R×Rd)→RG(Q(L,ξ):=f((LQ)ξ),(L,ξ)∈L2(Q,F,Q)× L0(Ω,F,Q;Rd),是关于(QL)L’|ξ在(QL)(1,ξ)处偏可微的,且由(0.0.1)给出的FQL:LQL→R在L0=1处是可微的。那么,(?)1F(QL)ξ,x)=((?)μG)1(QL)ξ,x)-EQL[((?)μG)1(QL)ξ,ξ)],x∈Rd,(QL)ξ(dx)-a.s.第三章:我们进一步研究了关于密度的导数,并得到了关于密度的导数和定义在P2(Rd)上的函数的导数的关系。我们证明了若f:P2(Rd)→ R满足可微性假设的话,那么我们讨论的关于密度的导数和f关于概率测度的导数存在联系,即后者可以看作是前者的导数。在讨论过程中,我们先证明了上述结论在光滑维纳泛函的情形下成立,然后利用了逼近的性质,得到了一般情形的结论。之后我们将结论由一维情形推广到了多维情形,并建立了与基于概率密度函数的平均场方法之间的联系。对d≥1,我们令f:P2(Rd)→R是连续可微函数,∧(?)Rm是一个连通子集,且映射∧(?)λ→Lλ∈LQ∩LQ2(,F,Q)是连续L2(Q)-可微的。定义Qλ=LλQ,其显然仍为概率测度。我们想要讨论映射∧(?)λ→f(Qξλ)在集合Λ上的可微性,和其偏导(?)λf(Qξλ)的形式。定理3.1.1.当假设1成立时,记Qλ:=LλQ,λ ∈ Λ,则函数Λ(?)λ→f(Qξλ)是可微的,且(?)λf(Qξλ)=EQ[(∫0ξ(?)μf(Qξλ,y)dy)(?)λLλ]=EQλ[(∫0ξ(?)μf(Qξλ,y)dy)(?)λ[lnLλ]].定理3.1.2.当假设1成立时,函数FQ(L):=f((LQ)ξ),L∈LQ ∩L2(Q,F,Q)是连续L2(Q)-可微的,DFQ(L)=∫0ξ(?)μf((LQ)ξ,y)dy-EQ[∫0ξ(?)μf((LQ)ξ,y)dy],Q-a.s.,L ∈LQ∩L2((Ω,F,Q),而且,函数 L’ → FQL(L’)=f((L’QL)ξ)(=f((L’LQ)ξ)),L’∈LQL∩L2(Ω,F,QL)在L’=1处的导数有如下形式DFQL(1)=∫0ξ(?)μf((QL)ξ,y)dy-EQL[∫0ξ(?)μf((QL)ξ,y)dy],QL-a.s.,(?)1F(QL)ξ,x)=∫0x(?)μf((QL)ξ,y)dy-EQL[∫0ξ(?)μf((QL)ξ,y)dy],(QL)ξ(dx)-a.s.此外,(?)1F(QL)ξ,·):R→R连续可微,且有(?)x((?)1F)((QL)ξ,x)=(?)μf((QL)ξ,x),x∈R.我们先证明定理3.1.1的一个特殊情形。为简便起见,我们固定T=1,并给出特殊情形的假设:假设 3.令 n ≥ 1,0=t0<t1<…<tn=1,△i:=(ti-1,ti],B(△i):=Bti-Bti-1.ⅰ)ξ是光滑维纳泛函:ξ=φ(B(△1),..,B(Δn)),φ∈Cb∞(Rn);ⅱ)γλ是光滑维纳阶梯过程:#12其中φi:∧ × Ri-1 → R是有界Borel函数,使得:iia)φiλ:Ri-1→R是C∞函数且在A ×Ri-1,1 ≤i ≤n,上各阶导数有界;iib)∧(?)λ→γλ ∈LF2((0,1)× Q,dsdQ)是连续 L2(dsdQ)-可微的。对t∈[0,1]和λ ∈A,我们介绍所谓的Dolean-Dade指数:εtλ=exp {∫0t γsλdBs-1/2∫0t|γsλ|2dss},注意到εtλ∈LQ∩L∞,-(Q),其中L∞,-(Q):=n1<p<+∞Lp(Q)。此外,我们记:Qλ:=εtλQ,相应地,(Qtλ)ξ=(εtλQ)ξ∈P2(R)。命题3.1.1.在假设2和假设3成立时,定理3.1.1所声明的结论成立,换句话说,A(?)λ→f((Qtλ)ξ)是可微的,且(?)λf((Qtλ)ξ)=EQ[(∫0ξ(?)μf(Qtλ)ξ,y)dy)(?)λ[εtλ]].命题3.1.1的证明是基于Girsanov变换和Malliavin分析方法的。具体符号参见正文。应用下面的命题,我们即可将所需求导的变量由分布密度中转移至同一个概率测度下的随机变量中。命题3.1.2.对任意给定的f:P2(R)→ R,我们有f((εtλ’Q)ξ)-f((εtλQ)ξ)=f((εt,λ,λ’Qtλ)ξ)-f((Qtλ)ξ)=f((Qtλ)ξ(Ttλ,λ’(Bλ))-f((Qtλ)ξ(Bλ)),λ’∈∧.(0.0.3)为了完成特殊情形的结论,也就是命题3.1.1的证明,我们还需要下面的Malliavin分析的结果。引理3.1.2.当假设3成立时,映射s→ξ(Tsλ’,λ(Bλ))在[0,1]上连续,且在任一s∈(ti-1,ti),1 ≤ i ≤ n,处可微:(?)s[ξ(Tsλ’,λ(Bλ))]=(Dsξ)(Tsλ,λ’(Bλ))·(γsλ’-γsλ)(Tsλ,λ’(Bλ)).本章的主要结论—定理3.1.1的证明还需要下面的逼近结果。命题3.1.3.令∧(?)λ→Lλ∈LQ∩L2(Q,F,Q)为一连续L2(Q)-可微映射。那么存在一列有界光滑维纳阶梯过程γλ,n,n ≥ 1,#12其中0=t0n<t1n…<tNnn=T,△in=(ti-1n,tin],使得i)φin:∧ ×Ri-1→R是有界Borel函数,ii)φiλ,m:Ri-1→R是C∞函数,各阶导数均在Λ× Ri-1 ≤ i ≤ n,上有界,iii)∧(?)λ → γλ,n ∈ LF2((0,T)× Ω,dsdQ)在 Λ 上连续 L2(dsdQ)-可微,使得,对于εtλ.n:=exp {∫0tγsλ,ndBs-1/2∫|γsλ,n|2ds},t∈[0,T],λ∈A,如下两条成立a)(εTλ,n,(?)λεTλ,n)(?)(Lλ,(?)λLλ):对任意的λ∈∧,b)对任意的 λ,λ’∈Λ 且[λ,λ’](?)∧,λ(s):=sλ’+(1-s)λ,s ∈[0,1],#12在多维情形的讨论中,我们得到了下面的结果。定理3.2.1.令L ∈LQ,且存在两个常数C,c>0,使得c ≤ L≤ C。并假设对任意的ξ∈L4(Ω,F,Q;Rd)和满足假设 1 的f:P2(Rd)→R,有函数FQξ(L’)=f((L’ξ)Q),L’∈LQ∩-L2(Ω,F,Q)是连续 L2(Q)-可微的,且 DFQξ(·)是L2(Q)-Lipschitz 的,(?)1F((QL),·)连续可微,且(?)x((?)1F)(·,·)(?)μf(·):(?)μf(·,·):P2(Rd)×Rd→R有界且模连续。那么,(?)x((?)1F)(QL)ξ,x)=(?)μf(QL)ξ,x),x∈Rd.我们在本章的最后考虑了f((LQ)ξ)=Φ(fξLQ)形式的函数,其中fξLQ是随机变量ξ在概率LQ下的密度函数,Φ是一个定义在密度函数空间上的可微函数。在这种情形下我们得到了和上面的定理相同的结论。第四章:我们介绍了一类带部分观测的平均场随机控制问题。我们首先证明了这类平均场随机微分方程组的弱解的存在性和依分布唯一性。在考虑控制问题时,我们借助第三章所得求导数结论的帮助,导出并证明了其一、二阶变分方程,并利用对偶原理求得最优控制所满足的必要条件。这里我们得到的是Peng的随机最大值原理,其中控制域并不要求是凸的,且不需要控制系统的系数关于控制项的光滑性。在本章中,我们考虑的状态-观测系统如下(?)(0.0.4)其中(B1,B2)是(F,P)-布朗运动。在这样的系统中,X是状态过程,而Y是观测过程,它们均定义在概率空间(Ω,F,P)上。令UtX|Y:=EP[Xt | FtY],t∈[0,T],为“滤波”状态过程,μtX|Y是其在概率测度P下的分布,即μtX|Y:=PUtX|Y。我们想考虑上述系统在适当假设下的适定性。由Girsanov定理,我们可以将(0.0.4)转化成如下形式(?)(0.0.5)此方程可以看作是参照概率测度Q下的随机微分方程,其中(B1,Y)是(F,Q)-布朗运动。命题4.1.1.在假设(H1)之下,方程(0.0.5)存在唯一强解。SDE(0.0.5)的强解的存在性即可说明(0.0.4)的弱解的存在性,也就是说,假设在Q-布朗运动(B1,Y)驱动的方程(0.0.5)的强解为(X,L),那么(Ω,F,P,(B1,B2),(X,Y)是(0.0.4)的弱解,其中P=LTQ,且Bt2=Yt-∫0th(s,Y.∧s,Xs,μsX|Y)ds,t∈[0,T].我们还有下面的唯一性结果。定理4.1.1.当假设(H1)成立时,令(Ωi:Fi,Fi,Pi,(B1,i,B2,i),(Xi,Yi)),i=1,2,为方程(0.0.4)的两个弱解。那么,有P((B1,1,B2,1),(X1,Y1))1=P((B1,1,2,B2,2)(X2,Y2))·接下来我们考虑如下参照概率测度Q下的随机控制系统(?)(0.0.6)其中Pu=LTuQ,μtu=μtXu|Y=PEu[Xtu|FtY]u,其中Eu[·]:=EPu[·]。代价泛函定义为J(u):=EQ[Φ(XTu,μTu)+∫0Tf(t,Xtu,μtu,ut)dt],u ∈uad.我们的目标是最小化代价泛函。在我们的讨论中控制域U不要求是凸的。在适当的假设下,我们借助上一章的结果,给出了如下的一阶变分方程:#12我们有如下适定性结果。命题 4.2.1.当假设(H2)成立时,(0.0.7)有唯一解(Y1,ε,K1,ε)∈SF2([0,T],Q)×SF2([0,T],Q)。而且,Y1,ε,K1,ε,V1,ε∈SFp([0,T],Q),对任意的 p>1。下面的估计验证了变分方程的正确性。命题4.2.2.对任意k≥ 1,存在Ck∈R+,使得(ⅰ)(?)(ⅱ)(?)(ⅲ)(?)(ⅳ)(?)推论4.2.1.对任意k≥1,存在Ck∈R+,使得(ⅰ)(?)(ⅱ)(?)(ⅲ)(?)(ⅳ)(?)下面这个非常有用且很有技巧性的估计为我们的讨论作出了巨大的贡献。命题 4.2.3.对任意的θ)=(θ1,θ2)∈LF2([0,T],Q;R2)满足EQ(∫0T(θt1|2+|LTθt2|2)dt]<+∞,且(θt1,Ltθt2)∈ L2(Ft,Q;R2)对任意的t∈[0,T],存在 ρ:[0,T]× R+→R+使得|EQ[θt1Yt1,ε+θt2Ktt1,ε]|≤ ρt(ε)(?)ε∈(0,1],t∈[0,T],其中ρt(ε)→0(ε(?)0),t∈[0,T],且满足ρt(ε)≤CEQ[|θt1|2+|Ltθt2|2],ε∈(0,1],t ∈[0,T].二阶变分方程有如下形式,此时我们为计算不过于繁琐,假设σ=σ(γ,v),h=h(x,v)。且对于二阶变分方程有如下的适定性结果和估计。引理4.2.1.在假设(H2)成立时,方程(0.0.8)有唯一解(y2,ε,K2,ε)∈SF2([0,T],Q)×SF2([0,T],Q)。而且,Y2,ε,K2,ε∈SF∞,-([0,T],Q),且对任意的p>2,其SFp([0,T],Q)-界不依赖于ε>0。引理4.2.2.对任意的p>1,存在常数Cp∈R+,使得对t∈[0,T],ε>0,有(EQ[|(Utε-(U+Vt1,ε+Vt2,ε))-θt(Xtε(Xt+Yt1,ε+Yt2,ε),Ltε-(Lt+Kt1,ε+Kt2,ε))|p])1/p≤<Cpε3/2.命题4.2.4.对任意的p≥2,存在Cp ∈ R+,使得(ⅰ)(?)(ⅱ)(?)(ⅲ)(?)其中 ρp(ε)→ 0,ε(?)0。此外,(ⅳ)(?)我们强调,上述结果对于一般情形也是成立的,系数对于其他变量的依赖性仅仅增加了计算了复杂度,而不会增加难度。现在我们考虑对偶性,得到了一阶伴随方程:(?)(0.0.9)一阶伴随方程有如下适定性结果:命题 4.2.6.当假设(H2)成立时,BSDE(0.0.9)有唯一强解(p1,(q1,q1)),(p2,(q2,q2)))。进一步地,对任意p≥2,((p1,(q1,q1)),(p2,(q2,q2)))∈(SFp([0,T],Q)×(LFp([0,T],Q))2)×(SF2p([0,T],Q)×(LF2p([0,T],Q))2)。定义Hamilton泛函H(t,x,l,γ,v,q2):=σ(t,x,γ,v)q1+h(t,x,γ,v)lq2-f(t,x,γ,v),(0.0.10)(t,x,l,γ,φ,q1,q2)∈[0,T]×R×R+×P2(R)× U×R×R,并简记下列记号δH(t)=δσ(t)qt1+δh(t)Ltqt2-δf(t),Hxx(t)=σxx(t)qt1+hxx(t)Ltqt2-fxx(t),Hxl(t)=hx(t)qt2,Hμ(t)=σμ(t)qt1+hμ(t)Ltqt2-fμ(t).Hzμ(t)=σzμ(t)qt1+hzμ(t)Ltqt2-fzμ(t),其中(p1,(q1,q1)),(p2,(q2,q)))是一阶伴随方程的解;并给出二阶伴随方程则我们可以得到我们的随机最大值原理。定理4.2.1.假设(H2)成立。令控制u∈Uad是最优的,且(X,L)句为相应的控制系统(0.0.6)的解。那么,对任意的v∈U,有:dtdQ-a.e.(t,ω)∈[0,T]× Q,EQ[H(t,Xt,Lt,μt,v,qt1,qt2)-H(t,Xt,Lt,μt,.ut,qt1,qt2)+1/2Pt1|σ(t,Xt,μt,v)-σ(t,Xt,μt,ut)|2|FtY]≤0,其中(p1,(q1,q1),(p2,(q2,q2)))和(P1,(Q1,1,Q1,2)),(P2,(Q2,1,Q2,2)))分别是一、二阶伴随方程(0.0.9)和(0.0.11)的解。