DNA序列分类模型

来源 :浙江大学 | 被引量 : 0次 | 上传用户:jtfcyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
依据生物学知识,按照氨基酸分子中侧链基的极性性质,把碱基三联体分成五大类,即四大类氨基酸和终止码。以五类密码子出现的频率构成的特征向量来表征DNA序列。这是从不同序列中氨基酸含量不同提炼出能从碱基含量和碱基排列情况两方面代表序列特征的氨基酸类别信息的方法。   然后用三种统计方法进行分类。用马氏距离判别法和FISHER判别法对给定序列进行分类,样本回代正确率均达100%,二者分类一致率为90%;应用聚类分析方法对DNA序列片段进行分类,样本回代正确率达95%。   本模型考虑结合生物学知识,特征向量维度较低,便于计算,分类结果精度较高,优于仅基于碱基含量的判别分类模型。
其他文献
3618块稠油藏于2008年5月在借鉴国内外火驱先进经验及针对性开展开发适应性研究基础上,在区块中部主体部位L5砂体开展先导性试验,并逐步扩大实施规模。在火驱开发过程中遇到许
图论的研究已有200多年的历史。图论起源于1736年Euler发表的一篇论文,他用图论的方法解决了哥尼斯堡(Konigsberg)七桥问题。自二十世纪六十年代以来,图论得到迅速发展,涌现了大
Sturm-Liouville问题起源于十九世纪初,是傅立叶为了解决固体的热传导问题而建立的数学模型。它的理论应用十分广泛,已涉足于数学、物理和地球气象学等现代科学领域,逐步成为数
社会信息化的普及,引发了全社会工作方式和生活方式的变革,档案部门传统服务方式面临巨大的挑战,有待全面转型.域建档案工作在新的形势下,如何为社会服务,为经济建设服务,是
在市场需求不确定的情况下,本文对以下两种类型的供应链分别进行了研究:由一个供应商和一个零售商组成的供应链、由一个供应商和两个零售商组成的供应链。  一、对由一个供
部分线性模型是一种重要的半参数统计模型,纵向数据是指对同一样本或同一组样本在不同时间或空间上进行重复观测而得到的数据。这一特点决定了纵向数据既能更好地分析出样本随
采用田间试验的方法,探讨了不同氮水平影响下马铃薯块茎中蛋白质和淀粉含量的动态变化规律。试验结果表明:播种后63~91 d,不同处理的块茎粗蛋白质含量随施氮水平的增加而增加,
遗传算法是一类模仿生物进化过程的优化方法。近年来不仅在理论上形成了一套较为完善的算法体系,并且它的应用范围也得到较大的发展。同时遗传算法在不断的被改进,有些改进方
随着人类蛋白质组计划(HPP)的启动和后基因组时代的来临,生物领域产生了海量的蛋白质序列数据。应用分子生物学手段处理和分析这些序列不仅耗费大量时间和物资,还存在不稳定性
由于客观事物的复杂性、不确定性以及人类思维的模糊性,针对不确定环境下的多属性决策方法的研究已引起人们的极大关注,并取得了丰硕的成果。1983年Atanassov将传统的模糊集理