基于串核的蛋白质分类算法的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:laozhoudehua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学的一个关键问题是理解由染色体中的基因所决定的蛋白质的含义或者功能。对蛋白质进行分类是解决这个问题的有效途径之一。如何提高蛋白质分类的精确性,或在保证精确性不会有较大的降低的前提下,如何提高蛋白质分类算法的计算效率和降低对内存的需求量,一直是生物信息学领域关注的焦点问题之一。本文正是在对经典的蛋白质分类算法研究的基础上,寻求更好的特征映射方法和更快的串核计算方法。基于串核的支持向量机分类器是现今分类效果最好的蛋白质分类器之一,其中,基于谱核的分类器具有速度快,分类效果也比较好的特点。而后改进的不匹配核通过引入不精确匹配思想,在增加了核的计算时间后,取得了更好的分类效果。本文通过对典型的串核,以及基于trie-树的串核计算进行分析,提出了对其在特征映射和计算上的改进方法。本文的主要工作和创新点有:(1)针对串核在特征提取上的不足,本文采用了一类称为样本核的特征提取方法。样本核以训练样本为特征来定义核的特征空间,以串核或其它核为相关的特征映射。所以,样本核以其他的分类核为基础,并可以通过增加先验知识和改变特征空间来改变分类效果。随后,本文针对不同应用下样本核的设计、选取以及计算简要做了分析。(2)在针对串核的计算方法上,本文设计并采用了一种称为剪枝后缀树的数据结构。剪枝后缀树结合了后缀树的后缀链思想以及trie-树在根结点计算核值的方法,具有比后缀树更少的空间以及比trie-树更快的时间。然后,应用剪枝后缀树设计出了针对p-谱核的快速计算方法。(3)针对p-谱核在字符匹配上的不足,结合不匹配核的思想提出了另一种不精确匹配核——模糊谱核。模糊谱核同样加入了不精确匹配的思想,但不同于不匹配核,模糊谱核把不匹配定义在两个样本串上。而在模糊谱核的计算上,同样利用了剪枝后缀树提高了字符匹配的速度。最后,本文设计并实现了一个蛋白质分类模型,并通过该模型对上面几种核进行了测试,通过测试实验表明,样本核在对串核的分类效果上有明显的改善,而剪枝后缀树也大大提高了串核计算的速度。
其他文献
近年来,随着H.264/MPEG-4 AVC、AVS等新一代视频编码标准的制定,视频编码技术正一步步走向成熟。帧内预测技术作为混合视频编码框架中的重要组成部分,对提高视频编码效率有重
随着计算机和网络技术的不断发展,在线学习越来越成为目前国内外的研究热点,近些年涌现了一大批在线学习的网站,如Coursera, Edx和Udacity,这些网站大多要求学习者通过观看视
IPv6也被称为下一代网际协议(Next Generation Internet Protocol,IPNG)。它是网络技术史上重要的升级之一。它将慢慢取代IPv4成为因特网络的基础设施,并且将对网络产生积极
数字音像内容集成管理平台(NNM管理系统)是基于C/S模式的、在内容运营商系统中实现对音像内容管理、查询和维护的平台。对于运营商来说,它是对分布式资源网络中所拥有的音像
目前我国正在处于信息化建设的时代,各部门和各单位都组建了各自的网络系统,这些网络主要包括无线传感器网、以太网、自组网等。然而这些异构网络系统种类繁多、接口各异,因
文景转换系统,主要分成三个模块:抽取自然语言脚本模块、自然语言脚本生成动画脚本模块、动画生成模块。本文是该项目从自然语言到动画的中间过渡模块。本文的研究任务是从自
网络的普及和发展给语言学习和语言测试提供了前所未有的机遇和发展空间。随着客观题测试技术的日趋完善,主观题的自动测评让语言测试者备感兴趣,同时也给语言测试带来了新的挑
游戏引擎的重要性越来越明显,在一个开发完成的引擎上只需要添加足够的游戏内容,游戏就可以短时间内运行起来。在3D游戏引擎中渲染引擎部分是最重要的,具有很强的重用性、独立性
随着包括化学情报学、生物信息学、计算机视觉、视频索引、文本检索以及Web分析在内的广泛应用,图做为一种一般的数据结构在复杂结构和它们之间相互作用建模过程中变得越来越
网格环境使工作流流程需要跨组织执行,从而使传统的工作流技术在网格中应用面临着许多问题,尤其是网格工作流的调度问题,它影响着网格工作流执行成功与否及效率的高低。同时,