论文部分内容阅读
在后基因组时代,处理各个层次的生物数据,是当前生物信息学发展的重要任务。在海量数据中学习并选择有效的信息,来鉴别及分析一系列特定疾病的分子特征与规律,对于疾病的诊断与预后至关重要。更加关键的,从系统生物学的角度去研究疾病的分子机理,建立定量的调控网络模型,已经成为研究重大疾病分子机理的关键步骤。然而,现有的学习算法没能针对疾病相关数据自身的特点,为特定疾病设计学习高通量数据的计算方法,以至于未能充分反映疾病的全部关键特征;特别是定量模型的缺乏,使得一些基因表达调控网络没有得到有效的建立与分析。疾病相关的特征过多而生物实验数据不足所造成的“小样本问题”则是造成上述问题的主要原因之一。本文着眼于学习一系列疾病的关键特征,以及疾病相关定量的分子动力学机制,特别针对处理“小样本问题”为不同的生物医学问题设计了专门的算法。本文的主要工作任务包含三个部分:1,为肺炎以及龋齿的元基因组16s rRNA数据设计“特征合并选择算法”,学习并提取关于微生物种类的特征组合。该算法在充分降维压缩特征空间的同时保留了充足的原始特征数量,并且转化后的新特征组合之间没有重叠,使之更具有可理解性。经过两种不同疾病元基因组数据的验证,该算法不仅比其他方法拥有较高的识别率,同时也保证了较低的维数,使得模型更加稳定。2,针对白血病小鼠体内正常的造血干细胞Maff与Egr3两种基因高表达,并且以相反方式影响细胞周期的生物实验结果,本文通过生物信息网络资源,经过“穷举——模型选择”的方式筛选出Maff与Egr3调控细胞周期的定量模型。在模拟细胞周期一系列关键分子表达量以及结合位点序列扫描等方式验证模型之后,通过动力学模拟,计算得到Egr3强烈抑制细胞周期,而Maff促进细胞周期则要受到前者约束的一系列结论,同时也印证了白血病环境下的正常细胞“癌化——自我保护”的机制。3,针对脂肪细胞分化过程中的基因表达调控网络,为基因表达数据的小样本问题,设计了基因定量调控网络的参数估计算法——“小样本迭代优化算法”。该算法能够在样本量明显不足的情况下,正确而又准确地估计合理的参数,从而实现定量调控网络的构建,并且在人类与小鼠两个物种的调控网络得到了验证。此外,通过寻找分化前后差异表达较大的基因,对比计算发现了一系列额外的反馈结构并且得到了验证。在估算定量网络的基础上分别在参数大小,动力学结果,以及统计调控强度差异等方面比较了人类与小鼠脂肪分化的异同之处。得出了两物种在基因表达调控细节上的诸多差异与人类和小鼠脂肪分化系统的效率差异之间的潜在关系。