LZ复杂性算法及其在生物序列分析中的应用研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:ynshisss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Lempel-Ziv(LZ)复杂性是符号序列的根本属性之一。经过适当的粗粒化和符号化,生物大分子(DNA、RNA、蛋白质等)也可表示成一维符号序列的形式。通过对生物序列的LZ复杂性及其它相关特性进行分析、比较,可以为解决近年来生物信息学领域许多基于序列分析的重要问题提供新的计算方法和研究途径。论文首先研究了LZ复杂性的概念和基本性质,在此基础上提出符号序列最长后缀前缀(LSP)划分的概念,证明了LSP划分与LZ复杂性定义中完备生成划分的等价性。提出了通过非空符号序列的LSP划分来进行LZ复杂性计算的LSP-LZC算法。采用基于带后缀链接的后缀树构造算法作为主要的计算步骤,算法LSP-LZC总的计算复杂度为线性时间和线性空间,在时间效率上优于现有的LZ复杂性算法。LZ复杂性是单个符号序列的数值属性。为了刻画不同序列间的LZ复杂性关系,论文提出了条件LZ复杂性的概念。基于条件LZ复杂性,进一步提出度量序列间相似关系的LZ复杂性相似度,证明了LZ复杂性相似度满足相似性测度的正定、自反和对称等性质。论文将LZ复杂性相似度应用于分子系统进化树重构的研究中。分别以线粒体全基因组和病毒全基因组DNA序列作为计算数据,基于LZ复杂性相似度对29种有胎盘哺乳动物和SARS冠状病毒进行系统进化树的重构,都得到了具有合理生物学意义的结果。基于LZ复杂性相似度,论文提出了相似度矩阵特征变换的概念和LZ复杂性核及核矩阵的构造方法。证明了LZ复杂性核的正定性和LZ相似关系不变性。给出了基于LZ复杂性核的支持向量机模型在符号序列的模式分析中进行学习和预测的方法。利用上述方法,可以实现基于一级序列数据的蛋白质亚细胞位点类型的机器预测。在真实的分别由部分真核生物和原核生物组成的两个标准数据集上进行预测实验,都取得了良好的效果。论文还提出了基于蛋白质接触图间的LZ复杂性分析进行蛋白质三维结构比较的方法。因为蛋白质的三维结构数据不能表示成符号序列的形式,论文通过计算蛋白质三维结构的接触图,并计算蛋白质对应接触图间的LZ复杂性相似度来度量不同结构之间的相似性,间接实现蛋白质三维结构的比较。论文分别在由真实蛋白质结构数据组成的Chew-Kedem数据集和从SCOP蛋白质结构分类数据库中构造的4个结构超家族数据集上对论文所提出的方法进行结构比较的实验,都取得了理想的结果。
其他文献
创新是一个民族进步的灵魂,是一个国家兴旺发达的不竭动力。高等学校是深度开发人力资源的主要阵地,是实现创新驱动发展的关键因素,高等学校的教育教学是培养创新型人才的主要途
捅要:由于烹饪专业有其本身的特殊性,根据目前教改工作完善的具体化和技术人才培养的多元化,一体化教学是职教工作的必经之路,特别是烹饪专业更具代表性。它是推进烹饪事业蓬勃发
问题回答是文本检索和自然语言处理领域中非常热门的一个研究方向。问题回答系统输入的是基于自然语言的问题,返回的是精确答案以及支持该答案的文档。答案排序是问题回答中
本文基于对工业固体废物对生态造成的危害进行分析,并就如何加强工业固体废物处理及利用提出几点看法,以期促进生态环境改善。
本文的主要研究内容是探索式查询中的若干关键技术。探索式查询主要通过交互策略来获得用户输入查询的语用信息。在本文中,主要用到用户选取的导引关键词、用户对检索结果进
XML标准和面向服务的计算模式(Service-Oriented Computing,SOC)大大降低了跨域协同(Cross Organizational Cooperation,COC)系统的实现难度和实施成本,使多主体协同系统(Mul
随着当前Web上信息量的不断增长,人们迫切要求Web上的内容是计算机可以理解的,并可以由计算机自动来做有意义的处理。1998年,Web的创始人TimBurners-Lee首次提出了“语义Web"
词汇教学在士官英语教学中占有重要的地位。掌握一定量的词汇是学好英语的基础,本文就如何搞好士官英语词汇教学进行了一些探讨。文章针对士官学员的情况,就其英语学习实际情况
随着社会经济的不断改革和发展,我国档案数字化管理体系建设不断深入。但是,由于我国档案数字系统在90年代以前的很长一段时间,都是采用的纸质档案管理,因此,在新时期推行数字化管