生物序列分析中的非比对方法及其应用

来源 :大连理工大学 | 被引量 : 5次 | 上传用户:haohaia9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数学与计算机技术的飞速发展和巨量生物学数据的不断积累,一门新兴的充满活力的交叉学科——计算分子生物学(Computational Molecular Biology)应运而生。计算分子生物学主要是研究生物学应用上具有计算复杂度的问题,它吸引了许多计算机学家、分子生物学家、数学家等积极投入研究。生物序列分析是计算分子生物学研究的核心内容,传统的分析方法主要是以序列比对方法为主,而随着“后基因组(post-genome)”时代的到来,生物序列分析的非比对方法作为对传统方法的补充和发展已逐渐成为计算分子生物学研究中的一个热点领域。本文在对传统的序列比对方法进行简要回顾的基础上,较系统地总结了已有的非比对方法并提出了一些新的非比对方法,然后针对一些具体的生物序列进行了分析研究。本文的主要工作包括以下几个方面:基于生物序列的概率向量表示,提出了一种新的距离度量——正规化欧氏距离,重构了两组蛋白质序列集CK35和SP86的二级结构分类,并利用ROC曲线和AUC值与传统的比对方法和其它距离度量得到的分类结果进行了比较。以生物序列L-联体为核心,给出了DNA序列的一种8D向量表示和高维向量表示,并根据滑动窗口不同的起始位置构造相关矩阵,选取相关矩阵的正规化最大特征值和Frobenius范数作为数值特征比较序列的相似性。作为应用,我们比较了十一个物种的β-球蛋白基因的第一个外显子的相似性;简单模拟了DNA序列高维向量表示及相关矩阵在数据库搜索方面的应用;重构了H5N1型禽流感病毒全基因组编码序列的种系进化树。基于L-联体在生物序列中出现的次数和位置,根据离散随机变量分布函数的定义提出了L-联体特征分布的概念,以此来反映L-联体的分布规律,揭示生物序列中所包含的生物信息。利用此特征分布我们研究了11个物种β-球蛋白第一个外显子的GC特征分布图;重构了24种冠状病毒全基因组序列,34种哺乳动物线粒体全基因组序列和40种跨膜蛋白序列的种系树。
其他文献
本研究的目的在于:⑴探讨由高脂饮食诱导形成的肥胖,其机体是否出现显著性性激素水平变化、生殖功能障碍及其受损机理。⑵在前人研究的基础上进一步验证长期耐力运动对于肥胖
一、单缸柴油机高压油泵正常工作后,突然出现供油不正常现象,检查高压油泵前端无漏气或堵塞情况,应属油不洁净造成供油不正常.通常处理方法是,拆下高压油泵清洗油泵芯套和出
教学过程一般是指学生在教师的引导下进行学习活动的过程,是学生和教师之间互动的过程,也是教师和学生共同发展的过程。随着我国教育体制的不断深入改革,不断涌现新的课程教学模
随着新课程改革的全面发展,初中数学高效课堂的建立显得越来越重要.高效课堂的建立可以提高学生课堂的参与度,使学生成为课堂的主体,有利于全面提高学生的“数学素质”对初中
目的 研究腺病毒介导的IL-24基因(Ad-IL-24)表达对乳腺癌的生长抑制作用.方法 将扩增的Ad-IL-24腺病毒感染人乳腺癌MDA-MB-231细胞,用RT-PCR法、Westernblot法检测IL-24基因
机油压力过低的原因:(1)发动机油底壳机油量过少,使机油泵供油量不足.(2)机油变质或牌号不对,粘度降低等.(3)机油泵磨损或损坏,致使泵油能力降低或无法泵油.(4)机油压力调节
随着通信网络技术的飞跃发展和广泛应用,全球电子商务交易额出现了逐年递增的趋势。网上支付作为实现电子商务资金流转移的关键,正日益引起人们的注意,而电子支票作为网上支
一位画家说过:“凝视墙上的一个点、壁炉中燃烧的一块煤、一朵云、一条流淌的小溪,你就可以记住它们的一些特征;如果你看的够仔细,就会发现一些十分绝妙的创造,画家完全可以利用这
岩土工程建设问题一直是建筑界在建筑过程中存在的问题,施工人员在施工前都会对施工现场进行勘察,确保岩土工程建设的质量安全。本文分析岩土工程地质勘查中质量方面的控制因
目的 为开展超重、低气压环境和微波辐射等多因素协同对机体影响的研究提供一种动物实验方法.方法 利用大功率微波雷达发射机改装成微波辐射源;自行研制成微波功率密度计测量