论文部分内容阅读
在当今精准医疗的发展背景下,随着测序成本的大幅下降和测序技术的普及应用,基于基因组学的诊断和医学服务已经被越来越广泛地应用于临床,其中包括产前检查、单基因遗传病检查、肿瘤个体化治疗、易感基因检查、全基因组测序等。现在人们可以方便地利用先进的高通量测序技术,对个人基因组中的30亿个碱基进行测序和分析,结合最新的科研进展,根据个人特有的遗传信息,提供个性化的健康建议、生育指导、用药提示、饮食建议、营养指导等全生命周期的健康管理方案。基因调控网络通过调控基因的表达控制生物体的细胞活动,进而调控生物体的生命活动。所以掌握基因表达调控网络的内在规律有助于帮助了解生命活动的本质以及疾病产生的内在原因,有助于人们更好的治疗疾病,保持并享有一个健康的生活。从上世纪60年代到现在,已有多种数学模型被用于尝试构建基因调控网络,并取得了一定的成果。其中使用较广的模型有布尔网络,互信息模型,贝叶斯网络,微分方程,神经网络等。但是在这些模型的使用过程中也发现了一些缺点,如现有的模型直接用于构建基因调控网络普遍存在不能足够精确地预测基因的表达水平和识别基因间的调控关系的问题,往往需要针对具体的网络进行相应的模型调整;另外单个模型适用范围较窄,鲁棒性不强。在应用中发现,使用多模型融合构建基因调控网络,可以根据单个模型的优点,取长补短,使构建的网络具有更好的适用性和鲁棒性,模型可以达到更高的预测精度。精确地预测基因表达水平和精确地识别基因之间的调控关系是基因调控网络建模研究中的两大内容。本文以这两大内容为依据,在系统研究了各种基本模型的基础之上,在多模型融合理论的指导下,分别提出了基于常微分方程和柔性神经树集成模型的基因调控网络模型,以及基于部分互信息的贝叶斯网络构建基因调控网络的方法。基于常微分方程和柔性神经树的集成模型相较于单一模型而言,计算精度高,适用于模拟复杂的非线性关系,进行非线性时间序列的预测。但是因其内部结构较为复杂,只能通过数据的预测精度间接地推断变量之间是否存在相互关系,所以本文主要侧重于利用该模型提高基因表达水平的预测精度。而基于部分互信息的贝叶斯网络模型因其适用于度量变量之间的相互关系,可以方便地识别基因之间得到直接调控关系和间接调控关系,可以方便地识别出基因之间的因果调控关系,克服了互信息模型在构建基因调控网络时的假阳性问题和条件互信息模型在构建基因调控网络时的假阴性问题,具有很好的直观性,所以本文侧重于使用该模型提高基因之间调控关系的识别精度。本文提出了两种基因调控网络模型,其中基于常微分方程和柔性神经树集成模型构建的基因调控网络分别使用概率增强式程序进化算法和粒子群优化算法训练两个子模型的结构和参数,然后对训练好的两个模型的输出以加权平均的方式进行集成,实验结果显示该模型对基因表达水平的预测精度较之前的研究有30%-40%的提高。而基于部分互信息的贝叶斯网络模型首先利用部分互信息理论得到一个较为精准的无向网络,然后以此网络为初始网络,使用基于BDE打分函数的K2贝叶斯结构搜索算法训练得到最终的基因调控网络,实验结果表明该方法提高了贝叶斯网络训练的效率,相较于其它一些模型,基于部分互信息的贝叶斯网络模型构建基因调控网络的假阳性在可接受范围之内,真阳性和准确率有较好的提升。