论文部分内容阅读
顺式调控模块的识别是计算生物学中一个重要的问题。识别顺式调控模块是理解基因转录调控机制的基础,同时也是构建基因调控网络的关键步骤。此外,识别具有特定调控功能的顺式调控模块对疾病机理的研究也有重要意义。顺式调控模块的识别仍是一个挑战问题。主要原因如下:顺式调控模块在被调控基因的调控区中分布很广,有的甚至距离目标基因可达数十万碱基对。构成顺式调控模块的模体位点,短且退化,很难识别。顺式调控模块本身复杂的结构组织进一步增加了顺式调控模块识别的难度。构成为总体调控结构的结构特征包括构成顺式调控模块的位点数、位点的方向、位点间的距离以及它们之间的顺序。但是,主导这些特征组织的顺式调控模块内部调控机制尚未完全清楚。这样,不同基因中的同源顺式调控模块存在着变异重排、整体结构并不保守。因此,很难确定性地刻画顺式调控模块的调控结构。当前,已经提出了许多顺式调控模块的识别方法。从方法论上,这些方法可分为如下类别:窗口聚集、概率模型、判别模型和系统发生印记。其中基于隐马尔可夫模型(hidden Markov model,HMM)的概率模型方法是所有方法中最常见和最有效的方法。本论文继续沿着HMM的路线,分别从提高HMM的表达能力、降低模型的搜索空间以及避免建模部分特征时参数的过拟合出发,提出新的顺式调控模块识别算法,以进一步提高顺式调控模块的识别性能。具体工作概括为如下三个部分:第一部分,针对经典HMM中存在的两个重要缺陷:1)状态的duration被隐式假定为几何分布;2)观察值被假设相互独立,限制了基于HMM方法识别顺式调控模块性能问题,提出一种概率模型方法SMCis。SMCis基于隐半马尔科夫模型(hidden semi-Markov model,HSMM)建立顺式调控模块识别模型。使用这种更强大的HMM,SMCis在一个更高的抽象层次上(片段而非碱基)来刻画顺式调控模块的调控结构。与一般的顺式调控模块识别方法相比,SMCis考虑了顺式调控模块内的模体间的距离和顺序的特异性,而非将仅顺式调控模块看作是一个模体的简单聚类。在三个真实生物数据上的实验结果验证了SMCis有更好的识别性能。第二部分,当前基于HMM的顺式调控模块识别方法限于计算能力,大多用于识别基因转录起始位点附近的启动子,即短的调控区序列。但更一般的顺式调控模块,如增强子等,远离被调控基因的转录起始位点。要识别这样的顺式调控模块,顺式调控模块识别算法需要搜索大的调控区,即长的调控序列。针对这个问题,我们提出一种新的算法SegHMC。SegHMC仍基于扩展的HMM,通过提前对序列进行片段分割,显式建立该HMM的状态转换图,去除不必要的搜索路径,从而减小解码算法的搜索空间。使得算法能够搜索长的调控序列,甚至全基因组序列中顺式调控模块。在模型中,SegHMC不仅将顺式调控模块表示为模体的组合,还将模体共同出现的频率、模体顺序偏好以及顺式调控模块中的相邻模体之间距离分布等特征引入到顺式调控模块的调控语法当中,这些特征可以有效提高顺式调控模块的识别精度。在一个模拟数据集和一个真实数据集上的实验表明,SegHMC较所比较方法在长的调控区序列上有更好的识别性能。第三部分,当前大部分的顺式调控模块识别算法在建模模体间依赖时,需要考虑所有模体间的相关性,不但引入了大量待估计参数,还可能造成模型的过拟合。鉴于此,我们提出了一种顺式调控模块识别算法ComSPS。ComSPS在建模模体间的依赖时,仅考虑在给定的序列中统计显著地出现的模体对间的相关性,从而显著地减少了待估计参数的数量。并且,ComSPS充分利用了所给信息,给出了一个更系统的数据处理流程。具体地,ComSPS首先依照所提供的模体的PWM数据源的质量,对输入的PWM集进行筛选。接着,对于输入序列,基于过滤后的PWM集(或者直接使用给定的PWM),使用HMM建模顺式调控模块的调控结构。模型通过Baum-Welch算法训练模型参数。基于训练的模型,使用Viterbi算法推断序列中潜在的顺式调控模块的位置。最后,对于找出的顺式调控模块,根据进一步保守性进行筛选并输出。在三个常用的标准测试集上的实验结果表明,ComSPS较所比较的方法有更好的识别性能。