论文部分内容阅读
模体发现问题,即寻找转录因子结合位点(TFBS),是生物信息学上研究的热门问题之一。由于模体蕴含着丰富的生命遗传特征信息,所以探究基因序列上的模体实例,对基因表达和调控具有重要意义。而生物序列的复杂性和基因变异的存在导致了模体在空间分布和特征上差异较大,也使问题变得非常复杂。为了解决模体发现中子序列数庞大和模体实例难以定位的问题,本文结合后缀树聚类和期望最大化求精提出了一种新的模体发现算法。主要分为两个阶段,第一阶段采用基于后缀树的k前缀字符串进行相似性度量,设计子类划分算法完成聚类过程,大大减小了问题规模,也保证了子类中序列的相似性。第二阶段以具有高信息量的子集作为起始点,对OOPS、ZOOPS、TCM三种不同类型,应用基于混合统计模型的期望最大化算法(EM)完成求精过程,以似然率和相对熵作为测度进行极大似然估计来确定模体和位点集。通过对多种类型的真实生物数据进行实验表明,聚类过程能明显的减少l-mer集的数量,得到更为保守的子序列集。求精过程通过前一阶段的起始点可以迭代收敛到最优结果。通过聚类和求精过程,算法能够有效的识别出转录因子结合位点。