基于扩展HMM的顺式调控模块识别算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liongliong436
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
顺式调控模块的识别是计算生物学中一个重要的问题。识别顺式调控模块是理解基因转录调控机制的基础,同时也是构建基因调控网络的关键步骤。此外,识别具有特定调控功能的顺式调控模块对疾病机理的研究也有重要意义。顺式调控模块的识别仍是一个挑战问题。主要原因如下:顺式调控模块在被调控基因的调控区中分布很广,有的甚至距离目标基因可达数十万碱基对。构成顺式调控模块的模体位点,短且退化,很难识别。顺式调控模块本身复杂的结构组织进一步增加了顺式调控模块识别的难度。构成为总体调控结构的结构特征包括构成顺式调控模块的位点数、位点的方向、位点间的距离以及它们之间的顺序。但是,主导这些特征组织的顺式调控模块内部调控机制尚未完全清楚。这样,不同基因中的同源顺式调控模块存在着变异重排、整体结构并不保守。因此,很难确定性地刻画顺式调控模块的调控结构。当前,已经提出了许多顺式调控模块的识别方法。从方法论上,这些方法可分为如下类别:窗口聚集、概率模型、判别模型和系统发生印记。其中基于隐马尔可夫模型(hidden Markov model,HMM)的概率模型方法是所有方法中最常见和最有效的方法。本论文继续沿着HMM的路线,分别从提高HMM的表达能力、降低模型的搜索空间以及避免建模部分特征时参数的过拟合出发,提出新的顺式调控模块识别算法,以进一步提高顺式调控模块的识别性能。具体工作概括为如下三个部分:第一部分,针对经典HMM中存在的两个重要缺陷:1)状态的duration被隐式假定为几何分布;2)观察值被假设相互独立,限制了基于HMM方法识别顺式调控模块性能问题,提出一种概率模型方法SMCis。SMCis基于隐半马尔科夫模型(hidden semi-Markov model,HSMM)建立顺式调控模块识别模型。使用这种更强大的HMM,SMCis在一个更高的抽象层次上(片段而非碱基)来刻画顺式调控模块的调控结构。与一般的顺式调控模块识别方法相比,SMCis考虑了顺式调控模块内的模体间的距离和顺序的特异性,而非将仅顺式调控模块看作是一个模体的简单聚类。在三个真实生物数据上的实验结果验证了SMCis有更好的识别性能。第二部分,当前基于HMM的顺式调控模块识别方法限于计算能力,大多用于识别基因转录起始位点附近的启动子,即短的调控区序列。但更一般的顺式调控模块,如增强子等,远离被调控基因的转录起始位点。要识别这样的顺式调控模块,顺式调控模块识别算法需要搜索大的调控区,即长的调控序列。针对这个问题,我们提出一种新的算法SegHMC。SegHMC仍基于扩展的HMM,通过提前对序列进行片段分割,显式建立该HMM的状态转换图,去除不必要的搜索路径,从而减小解码算法的搜索空间。使得算法能够搜索长的调控序列,甚至全基因组序列中顺式调控模块。在模型中,SegHMC不仅将顺式调控模块表示为模体的组合,还将模体共同出现的频率、模体顺序偏好以及顺式调控模块中的相邻模体之间距离分布等特征引入到顺式调控模块的调控语法当中,这些特征可以有效提高顺式调控模块的识别精度。在一个模拟数据集和一个真实数据集上的实验表明,SegHMC较所比较方法在长的调控区序列上有更好的识别性能。第三部分,当前大部分的顺式调控模块识别算法在建模模体间依赖时,需要考虑所有模体间的相关性,不但引入了大量待估计参数,还可能造成模型的过拟合。鉴于此,我们提出了一种顺式调控模块识别算法ComSPS。ComSPS在建模模体间的依赖时,仅考虑在给定的序列中统计显著地出现的模体对间的相关性,从而显著地减少了待估计参数的数量。并且,ComSPS充分利用了所给信息,给出了一个更系统的数据处理流程。具体地,ComSPS首先依照所提供的模体的PWM数据源的质量,对输入的PWM集进行筛选。接着,对于输入序列,基于过滤后的PWM集(或者直接使用给定的PWM),使用HMM建模顺式调控模块的调控结构。模型通过Baum-Welch算法训练模型参数。基于训练的模型,使用Viterbi算法推断序列中潜在的顺式调控模块的位置。最后,对于找出的顺式调控模块,根据进一步保守性进行筛选并输出。在三个常用的标准测试集上的实验结果表明,ComSPS较所比较的方法有更好的识别性能。
其他文献
随着我国经济的高速发展,城市化进程的不断加快,高层建筑得到了迅速发展。且随着人们对高层建筑要求越来越多,使其为高层建筑结构设计提出了更高的要求与挑战。而作为新时期
旨为阐明不同抗旱类型胡麻对干旱胁迫的生理响应规律,以抗旱性由强到弱4个不同抗旱类型的胡麻品种晋亚7号、晋亚10号、晋亚11号、E051-20为材料,采用盆栽控水法,研究了干旱胁
<正>济南以泉水众多享誉天下,金代以来号称七十二名泉,其名不显者难以计数。虽然七十二泉名单和排序历代皆有变化,但以趵突称魁则古今皆然。谁的名声次之呢?则说法不一。金代
目的观察脑卒中患者双上肢正中神经F波的变化特征及其与患侧上肢肌张力的关系,探讨F波在脑卒中患者上肢痉挛评价中的应用价值。方法选取2014-7—2015-7作者医院神经内科收治
摘要:有色金属硫化矿冶炼会产生大量的二氧化硫气体,若将其有效应用于选矿工业,不但能降低药剂成本,还能减少二氧化硫排放带来的环境污染。本文以亚硫酸为抑制剂,丁黄药为捕收
选取高产桔霉素红曲菌L及低产桔霉素红曲菌Idu,采用液态培养方式,研究不同种类碳氮源对这2种菌株产色素及桔霉素的影响。结果表明:对高产桔霉素菌株L而言,大米粉作为碳源其色
2020年实现邮发邮发代号:38-467,全国各地邮局均可办理订阅手续。以高端思想影响专业视野以权威分析提供决策参考《中国水运》杂志创刊于1979年,是交通运输部主管的全国优秀
背景和目的:急性ST段抬高型心肌梗死(STEMI)患者恢复血流灌注后广泛存在的冠脉微循环障碍(CMD)与不断进展的左室重构、心力衰竭、再梗死和死亡之间存在密切的联系,但目前缺乏
目的综合分析产钳术及会阴侧切缝合的临床护理效果。方法选取我院2015年6月至2016年10月收治的152例接受产钳术及会阴侧切缝合术的产妇作为研究对象,根据不同的护理方法分为
通过个体心理资本作为离职倾向的抑制因素和情绪劳动的前因变量,来探讨心理资本对情绪劳动和离职倾向的直接效应以及情绪劳动对心理资本与离职倾向关系的中介效应.采用随机抽样