模体发现中的参考序列选择问题研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:chance_abc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在一组生物序列中,通常会存在一些含有特定功能的短的序列片段,比如DNA序列中的转录因子结合位点。这些序列片段之间比较相似,但并不相同,这样的序列片段被统称为模体。研究者们一般采用计算的手段,识别生物序列中的模体。这类求解问题就是模体发现问题。在生物信息学和计算机科学中,模体发现问题都是重要且挑战性的问题。植入(l,d)模体发现(PMS)问题是模体发现的一种常用的研究形式,自被Keich和Pevzner第一次提出至今,已涌现出来了许多用于求解植入(l,d)模体发现问题的算法。本文主要关注于其中的精确算法,它们通过遍历整个搜索空间能够找出所有的模体,时间性能是衡量精确算法的最主要指标。研究者一般在模体发现问题的挑战实例上比较不同精确算法的时间性能。在目前对精确算法的研究中,基于模式驱动的精确算法具有最好的时间性能,无论是识别短模体还是微弱信号的长模体。这类精确算法的基本思路是用t条输入序列中的k(1≤k<t)条作为参考序列来生成候选模体,再逐一对候选模体进行验证,可以找出输入序列中所有的(l,d)模体。然而,在选择序列中的参考序列时,基于模式驱动的精确算法大多数都是固定地将输入序列中的前k条作为参考序列,没有考虑不同的参考序列对算法时间性能的影响。我们在本文的研究中发现,对于同一组数据集,不同的参考序列对候选模体的数量存在着影响,特别是对于大的字符集。因此在实验中,基于模式驱动的精确算法在应对同等规模的不同输入时,时间性能有时会表现出极大的不稳定性。在本文中,我们建立了模体发现算法中的参考序列选择问题,并通过评估不同参考序列对应的候选模体数量,提供了一种为模式驱动的模体发现算法选择参考序列的方法RefSelect,使得选出的参考序列对应于少的候选模体。实验结果表明,RefSelect算法(1)使得qPMS7算法、TraverStrR算法和PMS8算法等能够稳定地以高效的方式求解模体发现问题;(2)特别地,在蛋白质数据集上,对这些算法有数百倍的加速;(3)同时,在序列数量较多的大数据集上,RefSelect算法同样适用。
其他文献
基于构件的软件开发是解决软件危机的有效途径。在基于构件复用的软件开发过程中,如何从构件库系统中检索和提取满足用户需求的构件一直是构件库系统最核心的问题。构件库的
随着移动通信技术飞速发展以及手机等移动终端处理能力的提高,人们不再满足于仅有的文本,声音和图像信息的交流,还希望能够随时随地得到视频媒体的信息的服务。移动多媒体被
随着P2P网络的飞速发展,P2P技术已经逐渐成为当今IT技术领域研究与应用的热点。P2P网络的资源具有极大的分散性,资源分布在许多节点上;P2P网络中的节点可以自由地加入或退出,
近年来,随着网络和多媒体的迅速普及,图像数据成为一种在网络上传输的越来越重要的数据格式。图像数据有三个显著特点,一是数据量巨大,二是数据的冗余度很大,三是质量不高的
如今是信息化时代,各种信息通过网络进行传播,而谈到网络通信,就会想到各种网络协议,传输层协议在众多网络协议中又扮演着重要角色,不同的应用场景会选用不同的传输协议来传
H.264是由ISO(国际标准化组织)与ITU(国际电信标准化部门)为了获得更好的压缩和传输性能而联合制定的新一代视频编码标准。H.264引入了当前视频编码的新技术,包括多种宏块大
无线传感器网络(WSN)是目前国内外热点研究领域之一,WSN可广泛应用于工业、农业、军事、智能交通和环境保护领域等场景中。WSN通常由大量配备感知、无线通信、计算处理和电量
随着计算机和网络技术在电力系统中的广泛应用,信息的安全传输问题也波及到电力系统。变电站自动化系统作为电力自动化系统的数据源和各种控制行为的执行者,其网络通信安全不
为了满足企业应用系统业务的快速变化,一种新的软件系统架构理论—面向服务的架构SOA(Service-Oriented Architecture)应运而生,并引领着软件行业新一轮的技术变革。SOA是以
随着信息技术和人工智能技术的发展,交通管理系统的信息化、智能化是大势所趋。车牌识别系统是智能交通系统的重要组成部分,在现代交通管理系统中占有举足轻重的地位。车牌识