基于后缀树聚类和期望最大化求精的模体发现算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：ppcppc825406

【摘要】

：

模体发现问题，即寻找转录因子结合位点(TFBS)，是生物信息学上研究的热门问题之一。由于模体蕴含着丰富的生命遗传特征信息，所以探究基因序列上的模体实例，对基因表达和调控具有重

【作者】

：

乔科

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2014年期

【关键词】

：

模体发现后缀树期望最大化极大似然估计转录因子结合位点

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

模体发现问题，即寻找转录因子结合位点(TFBS)，是生物信息学上研究的热门问题之一。由于模体蕴含着丰富的生命遗传特征信息，所以探究基因序列上的模体实例，对基因表达和调控具有重要意义。而生物序列的复杂性和基因变异的存在导致了模体在空间分布和特征上差异较大，也使问题变得非常复杂。为了解决模体发现中子序列数庞大和模体实例难以定位的问题，本文结合后缀树聚类和期望最大化求精提出了一种新的模体发现算法。主要分为两个阶段，第一阶段采用基于后缀树的k前缀字符串进行相似性度量，设计子类划分算法完成聚类过程，大大减小了问题规模，也保证了子类中序列的相似性。第二阶段以具有高信息量的子集作为起始点，对OOPS、ZOOPS、TCM三种不同类型，应用基于混合统计模型的期望最大化算法(EM)完成求精过程，以似然率和相对熵作为测度进行极大似然估计来确定模体和位点集。通过对多种类型的真实生物数据进行实验表明，聚类过程能明显的减少l-mer集的数量，得到更为保守的子序列集。求精过程通过前一阶段的起始点可以迭代收敛到最优结果。通过聚类和求精过程，算法能够有效的识别出转录因子结合位点。

其他文献

模糊CMAC神经网络与GFHM模糊系统之研究与应用

模糊性是客观世界中某些事物本身所具有的一种不确定性，它与随机性有着本质的区别。有明确定义但不一定出现的事件中包含的不确定性称为随机性，它不因人的主观意识变化，由事物本

学位

模糊逻辑小脑神经网络模糊系统模糊小脑神经网络地效翼船广义模糊双曲正切模型全局逼近器

数字电视OSS及其计费管理的研究与实现

数字电视目前在国内的展开，这个趋势必将带动国内整个广电产业的巨大变革，而数字电视运营支撑系统(Operations Support Systems，以下简称OSS)是这个产业中的重要一环，而数字电视O

学位

数字电视OSS(运营支撑系统)OSS/JeTOM

基于否定选择的入侵检测技术研究

随着计算机网络的广泛应用,网络安全问题已经越来越受到人们的重视。入侵检测是信息安全保护体系结构中的一个重要组成部分,确保计算机网络资源的安全性。入侵检测的关键问题

学位

入侵检测免疫原理否定选择算法检测器

基于ARM微处理器的嵌入式指纹识别系统设计

每个人的指纹在图案、断点和交叉点上都各不相同，且一般人的指纹在出生后9个月得以成型并终身不变。正是因为指纹的唯一性和终身不变性，指纹识别技术才得以迅速的发展和广泛的

学位

指纹识别嵌入式系统指纹数据库

基于RDF视图的语义查询重写相关技术研究

随着计算机网络的广泛应用和发展，很多有价值的数据已经不能被传统的搜索技术检索出来，这些数据称为Deep Web。为了有效的访问Deep Web中的数据资源，人们提出了语义Web的概念。

学位

RDF视图关系数据库非强制图模式值约束模式内置函数语义查询重写技术

基于jabber的网络协同技术在IntelliCAD系统中的应用

随着信息时代的到来和网络技术的发展,协同设计成为一种必然的趋势,如何快速、高效地共享设计信息成为亟待解决的问题。自1984年计算机支持的协同工作这一概念诞生至今,十几

学位

网络协同IntelliCAD开发平台Jabber即时通信开源软件管道通信文件锁

一个呼叫转接中心系统的设计与实现

呼叫中心(Call Center)是CTI技术(Computer Telecommunication Integration)的一个典型应用。其集语音技术、计算机网络和数据库技术于一体,通过电话系统,连接到某个信息数据

学位

呼叫中心CTI技术可编程交换机Unilink系统

CORBA valuetype规范的研究和实现

CORBA系统中通常的对象传递方式是传递对象引用,通过传递对象引用,避免了传递复杂对象的系统开销和通信开销,实现了客户端与服务端实现的分离。随着分布应用的发展,为了满足

学位

valuetypeIDL C++编译器对象传值LC+TTL算法

基于分类技术的图像检索系统设计与实现

在数据库系统和计算机视觉两大研究领域的共同推动下，图像检索技术已逐渐成为一个非常活跃的研究领域。基于内容的图像检索不同于传统的基于文’本的图像检索，它实际上是一种模

学位

图像检索检索系统自动分类特征提取特征组合

16位高速DSP增强型同步串行口的设计

数字信号处理器是一种新型的结构特殊的单片微计算机,特别适用于数字滤波、高保真的视频、图象和语音处理中,并以其强大的处理能力和高度的灵活性迎合了信号处理任务对实时性

学位

数字信号处理同步方式帧同步内部时钟外部时钟接收端发送端

基于后缀树聚类和期望最大化求精的模体发现算法

与本文相关的学术论文