生物大分子序列比对和蛋白质结构分类算法

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 7次 | 上传用户:peggy721
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学的一个关键问题是理解由染色体中的基因所决定的蛋白质的含义或者功能。对蛋白质进行分类是解决这个问题的有效途径之一。在保证精确性不会有较大的降低的前提下,如何提高蛋白质分类算法的计算效率和降低对内存的需求量,一直是生物信息学领域关注的焦点问题之一。针对这一问题,文章从算法和计算机体系结构两个方面入手进行了研究。在分析蛋白质分类算法的基础上,本文把序列联配算法和基于支持向量机的蛋白质分类算法作为研究的主攻方向。经过三年的研究,在阅读大量文献的基础上,取得了理想的研究成果。 文章的主要内容包括:蛋白质结构预测与分类的意义:基于HPM并行计算模型,讨论了在SMP)多机机群系统上的算法优化与并行;在讨论序列联配算法的基础上,对Smith-Waterman算法的并行算法进行改进,并在SMP多机机群系统上进行优化,提高了计算性能;在讨论了基于机器学习的算法,主要是支持向量机算法的基础上,提出了结合片断进化距离和支持向量机的蛋白质分类算法;采用分而治之的思想,利用Suboptimal算法,对Smith-Waterman算法进行并行,得到了一种可扩展性很好的算法,显著地降低了对内存的需求。本文的创新点包括如下几个方面: 1) 采用支持向量机算法对蛋白质进行分类,提出了基于片断进化距离的内核。在将序列转化为向量时,将每条序列与正训练集的“重心”进行比较,而不是与训练集中的每一条序列进行比较,因此,在计算速度上比SVM-pairwise算法有着显著得提高。同时,序列比较时,不仅仅给出一个最后得分,而是对序列的每一部分都进行比较,在一定程度上可以保证最后结果的精确性。实验表明,这种方法可以获得很高的精确度,而计算速度也有很大的提高。在提前计算小片段的距离并储存的情况下,可以获得0(m)的加速比。在不采用提前计算的情况下,在对54个家族的蛋白质进行分类的实验中,平均计算速度是后者的10倍。 2) 由SMP构成的多机集群系统是目前并行领域的主流体系结构之一,基于HPM计算模型,分析了CoSMPs的体系结构特点,影响性能的主要因素,并且从并行性与存储访问性能的关系,并行性与通信的关系,以及编程模式对并行性能的影响等方面进行讨论,给出了在CoSMPs系统上对并行计算进行优化的一些原则:分析了纯MPI和MPI+SMP(或OMP)制导两种编程模式在性能上的优点与不足。进而提出了在SMP多机机群系统上的算法并行与优化方法。 3) 当前针对smith-Waterman算法的并行化算法,为了能够给出获得最优得分的联配,在(至少一个处理器)中保存整个得分矩阵。因此,在处理非常长的序列,比如长度以兆计算的序列时,内存的需求量超过了大多数计算机的内存容量。我们对Smith-Waterman算法采用分块的行流水算法,采用两次Smith-Waterman算法确定
其他文献
目的:了解护理本科生学习风格现状,将学习风格理论应用于护理教育中,使护理教育适应护理学科的发展。方法:应用Kolb学习风格量表对吉林省的北华大学、吉林大学、延边大学三所重
随着计算智能方法的发展,将计算智能方法用于解决工程问题已成为其研究的首要任务。而流程工业中建模与优化技术对于石化企业具有重要的现实意义,它的不断完善和应用可以带来十
目的:探讨高血压脑出血的外科手术治疗方法。方法:根据出血量、出血部位、临床表现,选择改良开颅手术治疗。结果:对于高血压脑出血出血量〈80 ml患者行改良开颅血肿清除手术治疗
在认知心理学的理论指导下,以"带电粒子在磁场中运动"为例,进行教学实践,并取得良好效果.
在改革开放逐步深化的今天,建筑领域的竞争也越发激烈。部分建筑企业因存在资金回笼困难、工期超时以及建筑质量不过关等问题,而在市场竞争中处于劣势。要想获得长期健康发展
目的:髋动力带锁钢板治疗股骨转子间骨折。方法:入院后患肢皮牵引制动,直视下解剖复位,C型臂观察经颈螺钉位置。结果:关节功能恢复良好,无髋内翻及肢体短缩畸形等并发症。结论:髋
目的:探讨眼外伤住院患者的临床诊断和治疗措施。方法:选取收治的眼外伤患者共220例,对其一般资料和治疗方法进行回顾性分析。结果:经适当的手术和药物治疗,其中眼球摘除25眼
目的:应用季节趋势模型预测儿科门诊和出院人数。方法:通过建立趋势预测模型,求趋势值,根据趋势值和季节指数,计算预测值。结果:根据建立的预测模型方程,对2004年~2008年1~4季度儿