基于启发式策略的快速motif发现方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:eva37
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪50年代,DNA双螺旋结构的阐明开创了分子生物学的时代.以生物学和医学为主要研究内容的生命科学研究从此进入了前所未有的高速发展阶段.伴随着人类基因组测序任务的完成,分子生物学相关信息的革命性增长,产生了对海量生物数据进行处理的需求,生物信息学应运而生.尽管当今生物信息学的研究内容向着更复杂、更系统的方向发展,但是对基因转录调控机制的理解仍然是分子生物学领域一个重要的、具有挑战性的问题.而解决这个挑战问题的关键步骤是具有高通量识别参与基因转录调控的基本元件:转录因子识别位点(也称为motif)的能力.目前的转录因子识别位点识别方法主要分为两类:基于一致序列表示(Consensus)启发式枚举方法和基于位置权重矩阵的局部优化方法.由于基于一致序列表示、采用启发式搜索策略的Weeder算法在各方法的评测中取得了较好的结果,本文我们主要研究基于一致序列表示的启发式notif发现方法,本文主要对Weeder算法进行了一系列降低时空复杂度的改进及尝试.具体包括以下三个方面:1.一般的方法需要对N条长为L(600-5000)的整个序列建成后缀树,空间复杂度为O(NL),我们发现检索motif只使用了深度为l的部分后缀树,因此我们提出一种构建部分后缀树结构,空间复杂度降低为O(Nl);2.由于我们观察到Weeder算法在检索过程中产生的候选motif过多,我们在Weeder算法中引入了一种新的压缩检索空间的方法,在不降低精度的条件下进一步加快了Weeder算法速度;3.基于以上两种启发式策略我们给出了一种时空都较优的Weederpromote算法,人工和真实数据上的实验结果均显示,Weederpromote方法优于原有的Weeder算法.
其他文献
在序列模式挖掘过程中,隐私保护是一个必须要考虑的前提,尤其在分布式环境下更加值得关注。现有的分布式数据挖掘隐私保护问题研究主要集中在关联规则挖掘方面,而对于分布式
机器学习在人工智能领域中扮演着极为重要的角色,它使得机器能够对各种事物构建模型,通过这些模型,机器就能够对我们的世界形成“认识”。近年来,机器学习能力得到了突飞猛进的发
随着网络的快速发展,因特网上的信息急剧膨胀,且正在加速深化。按其所蕴含信息的深度可以将Web划分为Surface Web和Deep Web两类。与Surface Web相比,Deep Web信息不仅领域性
随着绩效考核观念逐渐被越来越多的国内企业认知,中国铁路行业作为中国经济的火车头,国内企业的风向标,在铁路企业内部,尤其是基层站段的考核管理、人力资源管理、企业业绩评价等
传统实验手段在教学和实验环节中遇到了新的问题,同时远程教育的兴起对虚拟实验环境的建立和发展提出了新的要求,因此,如何建立一个开放性的能够进行创新实验且支持远程协作模式
目前,我国的交通事故发生率极高,繁重的交通事故处理工作一直困扰着国家的交通部门。单纯依靠人力去安排交通事故的处理任务,就显得费时费力缺乏时效性。本文论述了运用计算
延迟容忍网络(Delay Tolerant Network,DTN)是一种新型的网络体系结构,能在时延长和连接中断频繁等受限网络条件下进行通信。这种网络体系结构在车载网络,野生动物追踪,深空
无线传感器网络是目前国际上备受关注的、涉及多学科、知识高度集成的热门研究领域。它是一门集成了传感器技术、嵌入式计算技术、现代网络及无线通信技术、分布式信息处理技
随着Web服务技术的发展和应用,具有较高查全率和查准率的语义Web服务的相关问题成为了当前研究的热点。如何高效匹配和发现满足用户需求的服务是实现服务组合编排和编制的基
铁路行业作为我国传统的支柱行业,其发展质量不仅影响到我国的国际竞争力,也是与人们的日常生活息息相关的。与此同时,随着近几年科技的不断发展,计算机技术的应用范围也越来