论文部分内容阅读
近年来,基因调控网络一直是一个生物信息学中的热点问题。基因调控网络描述的是基因之间的相互调控关系,通过分析该网络,可以从中发现基因之间相互作用和协同工作的原理,并且可以发现基因的功能。基因调控网络研究的一大关键问题是如何构建基因调控网络。当前很多学者都从系统生物学角度出发,使用反向工程的思想,将基因调控网络的看作一个未知的复杂系统,通过建立适当的模型来分析该未知系统的输入输出关系,然后推测系统的内部结构和参数。
常微分方程(ODEs)模型是一个典型的反向工程模型。该模型使用常微分方程来描述未知系统的动力学规律,有着坚实的数学基础,可以实现对模型的细致的描述,并且方便引入各种数学工具来分析网络的特性。但是ODEs模型是一种确定性模型,无法描述生物系统内部固有的随机性。所以本文使用随机微分方程(SDEs)建模,一方面可以继承ODEs模型的诸多优点,另一方面还可以描述生物系统中的随机性,目标是借助于常用的树结果优化算法来确定方程的结构和参数。
由于SDEs模型引入了随机积分,导致对方程参数估计难度陡然上升。分析学方法可以获得较高的参数估计精度,但是对方程的形式限制过多,无法应对树结构优化算法中随机生成的个体;而数值方法在数学理论上还不够严格,同时十分耗时,导致进化过程十分漫长,难以忍受。本文针对这个问题,比较不同的可行方案:随机模拟方法、数值解法倒推法和直接差分法,权衡理论的严格性和实用性,使用差分方程作为一个折中方案。该方案直接把SDEs当作随机差分方程(SDCEs)处理,虽然牺牲了精度和理论上的严格性,但是以直接使用极大似然估计方法,从而实现方程的形式和参数的全自动搜索。此外,随机差分方程一方面可以直接处理差分系统,另一方面可以通过缩小模型中的步长以获得对原SDEs较好的近似。
随后,本文讨论了SDCEs的使用条件和一些限制,以及提高结果质量的方法。严格来说,对于随机性问题,相同起始条件下的观测样本至少有两个才可以反映出系统的随机性,所以在实际应用中,往往需要不断添加数据直到结果稳定为止。待识别的系统的扩散系数不宜过强,过强的随机性会导致进化过程优先适应随机性,从而进化结果也会呈现出明显地随机性。同样由于是随机性问题,随机波动也会降低优秀个体之间的区分度,所以必须采取一些措施,如扩大函数的有效区间,以及引入表达式化简策略以略去过于繁杂的项,以避免最优解的丢失。
对于基因调控网络,本文指出了传统ODEs模型两点疏漏:生物上典型的慢反应和微量反应物。这两点疏漏决定了ODEs模型只是一个近似模型,同样SDEs模型也是一个近似模型。所以前面使用的SDCEs模型虽然在理论上有不足,但也无关大碍,因为严格地处理随机积分不会给精度带来明显提高。另外,SDCEs模型针对生物上典型的慢反应和微量反应物则有着更好的理论基础。最后,本文讨论了随机差分方程模型的优势以及还存在的缺陷。