论文部分内容阅读
基因在转录的过程中,往往受到位于基因上游的一些DNA序列片段的控制。这些片段通常很短,并且表现出很明显的保守性,我们称其为motif,,如何识别生物基因序列motif是现代生物信息学研究的重要课题之一。
识别motif的方法很多,其中Gibbs抽样算法和EM算法是较为成熟和有效的方法。然而这些传统方法却存在着一些局限:如计算量大,导致处理基因序列时只能识别有限数目的motifi某些统计模型往往只适用于特定条件下的motif,缺乏一般性。2006年Jiang等借助EM算法和随机网络的结合的混合随机网络算法和同年Frankin等提出把随机网络和调整了的参数流算法结合的MotifCut算法。这些算法克服以往传统算法的局限性,并且取得了较好的识别效果。
本文着重研究了MotifCut算法的理论基础,对算法中网络结点问的边的权重的确定进行了改进,并结合识别包含CRP结合位点的DNA序列的基因数据给出了对比研究,结果表明我们的改进措施有效地提高了识别率。