蛋白质多序列比对算法及其评估算法的研究

来源 :山东财经大学 | 被引量 : 0次 | 上传用户:qq978458283
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多序列比对是生物信息学中至关重要的一步。传统的序列比对的方法是NP难问题。目前的算法都是以牺牲某种程度的精度为代价,达到可实用的速度。由于现有的蛋白质多序列比对算法难以兼顾速度和精度,因而在基于氨基酸多序列比对算法的蛋白质进化演化研究中,也不可避免的存在着计算量大和难以保证准确性的缺点。另外,每一种多序列比对算法都有自己的优缺点。那么,只有了解了这些算法的优缺点,才能针对不同的数据选用不同的算法。这样,对于蛋白质多序列比对算法的性能评估就显得尤为重要。对于蛋白质多序列比对算法优劣的评价方法,目前有很多种。但是,在蛋白质序列比对过程中会有噪声影响,还有人为因素的影响;由于这些原因,很难对每一个算法进行公正的评价。基于这个原因本文提出了置换距离的方法对蛋白质多序列比对算法进行评估,由于置换距离算法只关心蛋白质之间进化距离的相对次序而不考虑它们之间的细微差异,因此它能够克服噪声影响,具有更强的鲁棒性,从而对序列比对算法进行更加准确的评价。对于置换距离的度量本文用最长公共子序方法,它能够更快,更准确的反映出不同置换之间的差异性。上面说到现有的蛋白质多序列比对算法计算速度慢,难以达到用户的需求,因此本文提出了基于相对熵的蛋白质多序列比对算法。一般的多序列比对算法运行速度都很慢,这是由于它们都必须进行漫长的氨基酸序列比对过程;而本文提出的相对熵算法却避免了这一过程,直接对蛋白质序列进行分析,这样就大大提高了计算的速度。另外,用相对熵算法得到的结果与其它多序列比对算法得到的结果大体一致。可见,相对熵多序列比对算法无论在计算速度还是在计算精度上都可以很好的满足人们的要求。基于以上算法,本文首先用置换距离法对Dialign,Tcoffee,ClustalW等多序列比对算法进行评估,将评估结果与其它评估算法结果进行比较,以验证置换距离法的可行性。然后,用上面验证的置换距离法对本文提出的相对熵算法进行评价,从而证明了相对熵算法可行性及其在时间上的优势。
其他文献
近些年网络发展迅速,传统的计算机安全理论无法适应日趋复杂、变化的网络环境,传统的网络安全技术基本上都立足于防,但是防护技术只能最大量阻止入侵行为的发生或延缓此过程,
中文分词是自然语言处理的第一步。在实际应用中,分词受到诸多因素的制约,未登录词的切分就是影响分词正确率的重要因素之一。未登录词主要的形式包括人名,地名,机构名等命名
随着高分辨率合成孔径雷达技术的发展,SAR被越来越广泛地应用到军事和民用领域,主要涉及灾害(如洪水、火灾和地震)区域的定位、城市的扩张情况分析以及军事应用中打击效果的评估
Internet上新兴的多媒体应用业务对网络拥塞特别敏感,网络状况的改变会显著影响业务的服务质量QoS(Quality of Service)。然而,目前基于TCP/IP的Internet提供的是一种尽力而
随着Internet技术的发展,基于B/S结构的大型Web应用越来越多,这些应用几乎都是以.Net和Java为开发平台。目前关于J2EE的设计模式,人们已经提出了很多,但是对于.Net的设计模式,研究
学位
在嵌入式软件开发中,调试是一个重要的环节,调试在整个开发过程中占有着举足轻重的地位,一个高效、强大的调试系统可以大大减少整个系统的开发时间,因此调试工具是衡量软件开发环
近年来,校园网的规模随着计算机网络技术的快速发展而日益扩大。人们在日常生活中越来越依赖网络,保证网络服务畅通稳定就显得更加重要。而当前网络的复杂性和异构性越来越高
随着信息技术的飞速发展,个性化的产品、个性化的服务逐渐成为电子商务的发展趋势之一。本文以文献推荐服务系统为实例,对个性化电子商务应用系统中用户建模中涉及到的技术进
本文通过深入研究高速数据采集技术原理和实现方法,提出了基于VHDL的4路并行数据采集架构,利用低速、低成本的A/D转换器件实现了400MSa/s高速数据采集的目标,研发的示波卡具有
随着互联网和信息化建设的迅猛发展,三层交换机的应用已遍及骨干网、城域骨干网和汇聚层等,所以运营商对三层交换机的可靠性也提出了更高的要求。目前主要采用热插拔、热切换