基于序列信息的重组热点和蛋白质折叠识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shanxidongfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是一门计算机科学和生物学的交叉学科,其宗旨是利用计算机知识解决生物问题。近年来随着生物测序技术研究不断深入,DNA序列以及蛋白质序列的数据开始呈爆炸性增长。序列属于生物大分子的一级结构,并且序列信息能够反映空间结构的特点。如何利用这些一级序列来获取更多关于生物大分子的结构以及功能信息是当前需要解决的问题。本文结合提取序列信息特征的方法和机器学习的方法对转录和蛋白质结构识别中的关键问题进行了研究,即重组热点识别问题和蛋白质折叠识别问题。  重组热点在生物进化过程中扮演着很重要的角色,并且重组热点识别对研究DNA的功能以及蛋白质的功能有很大的帮助。为了提高识别的准确率,研究学者们使用了多种基于序列信息的特征来进行重组热点识别。其中 kmer特征是 DNA研究分析中比较常用的一种基于序列信息的特征。但是随着kmer长度的增大,会出现很多kmer只出现一次或者一次都没出现的情况,这使得得到的特征向量比较稀疏,容易出现过拟合的问题。为了克服这个缺点,另一种基于序列信息的特征gapped kmer特征被用来解决相关生物信息学问题。本文首次将gapped kmer特征用来进行重组热点识别,应用了Ghandi等人提出的gapped kmer核,构建了SVM-GKM模型来解决重组热点这个问题。该方法结合了gapped kmer特征以及支持向量机模型来进行重组热点识别,并且实验结果表明SVM-GKM模型在重组热点识别这个问题上具有很好的识别效果。  折叠结构作为蛋白质的二级结构,对一级序列以及多级结构具有承上启下的意义,对研究蛋白质的功能发挥着很重要的作用。蛋白质折叠识别的主要问题是如何提高折叠识别的识别率。针对这个问题本文做出了两点改进。首先通过对原始序列进行预处理,得到包含进化信息的频率谱序列。其次,由于单一的特征所描述的序列信息不一定全面,为了得到更多的序列信息,采取了融合多种特征的策略。本文融合了5种特征,分别为gapped kmer特征、自协方差特征、bi-gram特征、伪氨基酸组成特征以及五种属性特征,并结合支持向量机的方法构建了PP-MF蛋白质折叠识别模型进行折叠识别。本文在两个数据集上进行了实验,并且实验结果表明PP-MF方法比大多数折叠识别分类方法的分类效果要好。
其他文献
信息化时代的决策行为呈现出决策规则多变、协作流程多变、应用领域多变等特征。基于Agent的决策仿真是认识和学习决策行为的重要方法和手段,为改进决策过程、提高决策水平提
近年来,无线传感器网络在诸多方面得到广泛应用。绝大多数应用都需要将感知数据与一定的位置信息相关联,而且位置信息还可辅助实现其他网络服务。因此,节点定位是无线传感网的关
教务管理信息系统是在Internet/Intranet的基础上的,要求是一个整体,运行稳定并且安全性能很高。建设的总目标是:根据国内大学现在的管理模式,结合国际新的思想理念,在校园网
随着现代服务业的兴起和发展,越来越多的服务系统正在被设计和实现,服务系统的设计离不开服务建模方法和服务工程的研究。传统的服务工程方法主要还是从服务的功能和质量两个
随着计算机网络技术和多媒体业务应用的迅速发展,大众对网络的需求不再局限于有线网络技术,无线自组网技术的提出和广泛应用已经逐渐成为有线网络技术的有益补充。无线自组网
医学图像融合将不同时间或不同模态的医学影像信息集合在一起,得到关于病变组织或器官的更丰富的图像信息。DICOM标准是用来规范医学图像存储、传输、交换的数字影像和通信标
随着Java应用程序的广泛应用,移动代码安全问题越来越引起人们的关注,关于移动代码安全问题的研究也成为当前计算机科学中的热点之一。目前研究人员已经提出了很多方法来解决
随着Internet的不断发展,面向服务计算(Service-Oriented Computing, SOC)成为了软件领域最热门的研究内容之一,而Web服务标准与技术的日趋成熟,使得Web服务成为万维网上的一
随着硬件电路的复杂化,高层次综合在整个设计过程中起着非常关键的作用。对于数字信号处理应用程序,利用最少的资源实现高性能已经成为一个非常严峻的问题。可寻址的寄存器数量
作为互联网未来的一个发展方向,语义Web的目标是让Web上的信息具有计算机可以处理的语义,从而真正的实现智能网络。本体作为一种领域知识概念化的方法,是实现语义Web的关键技术