论文部分内容阅读
近年来,不断发展的cDNA序列和寡聚核苷酸序列测定技术,已经让基因组层面上的大规模mRNA表达水平的测量成为可能,得到大量基因表达数据。借助于生物信息学方法,初步筛选海量的基因表达数据,找出相互作用的基因,预测基因调控网络已成为生物学领域的重要研究内容。目前,预测基因调控网络方法主要分为两步:首先使用聚类方法将海量基因表达数据分成几十个或上百个小规模的基因类,然后通过逆向工程方法在小范围内构建基因调控网络。目前所使用的聚类算法和逆向工程方法都存在着算法精度不足且运算时间过长的问题。本文主要针对以上问题进行了较为深入的研究,主要的研究内容如下:(1)基于多数据源融合的双聚类算法PGAB基因表达数据通常被描述为二维矩阵形式,其中的一维表示的是基因,另一维表示条件,矩阵中的任意一个数据都表示一个特定条件下的mRNA的相对表达丰度。为了能够识别出更多更精确的基因表达行为及其特征,需要一个局部的模块化。本文提出了一个通用的双聚类方法,该双聚类算法改进了残基评价函数,使之符合随机类启发式搜索优化算法;首次在双聚类问题上引入并行免疫遗传算法来进行评价函数的优化计算,使之大幅度改进寻优算法的收敛效果,提高全局收敛的概率。将本算法应用于斯坦福大学酵母细胞周期表达数据库中Spellman的基因表达谱数据,与传统遗传算法优化的双聚类结果进行比较,验证了本算法在双聚类准确度上的优势。(2)基于SVD框架的微分方程模型构建基因调控网络双聚类算法运行结束后,在小规模靶基因群体结果中,利用微分方程模型进行基因调控网络构建。但此模型需要搜索的解空间范围,涵盖所有满足方程组条件的实数空间,因此需使用奇异值分解方法来缩小解空间范围。但是奇异值分解方法可能不会非常准确地预测出连接矩阵,不能直接用于预测基因网络,必须要附加其他方法,比如生物学知识或微分方程模型。本文提出了一种基于SVD框架的微分方程模型的基因调控网络构建算法。该方法主要是在网络构建算法运行之前使用奇异值分解方法,并结合早期基因调控网络和生物信息学数据库的研究数据,完善了原有的网络结构。首先使用奇异值分解方法来构建侯选解集合,然后通过相应数据来回归分析识别出这个解决方案的最稀疏矩阵。在每一次得到网络权值矩阵时均进行SVD通解验证,如通过则接受,否则重新计算。通过模拟数据和真实数据的实验结果,并对比其他传统微分方程模型算法,验证了本文算法在缩短运算时间和提高结果精度的执行效率。(3)基于OPSO方法的微分方程模型构建基因调控网络本文在网络构建过程中改进了传统的粒子群算法。该改进算法可以根据给定方程求出最优解,并可以用来找到给定基因的相应调控网络。此外,改进算法可以很大程度上避免陷入局部最优解。模拟数据和酵母细胞周期的基因表达数据被用来测定算法的执行效率,将该运行结果与传统遗传算法和传统粒子群算法的执行结果进行比较,证明了改进粒子群算法具有很高的执行效率。