基于生物序列统计特征的病毒分类和进化研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:sophia0d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
病毒作为一类结构上非常简单并且遍及自然界的生物,对人们的生产以及生活等各个方面都有非常大的影响。伴着测序这种新技术的突飞猛进,研究者们已经测序出许多种病毒的基因和蛋白质序列。运用序列分析的方法,探讨病毒之间的分类以及它们的起源和进化关系对理解它们的功能方面起到重要作用,与此同时,也对病毒引起的传染病的预防、诊断、疫苗研发等具有十分重要的实际价值。多序列比对方法是一种传统的序列比对方法,这种方法能够对序列分析起到十分有效的作用,一般情况下都能够构建出较准确的生物进化关系。但对于变异率很高的病毒序列,尤其是单链RNA病毒,多序列比对会出现不准确的结果。此外,多序列比对方法还非常耗时,这导致多序列比对的方法不适用于规模大和序列长的病毒分类和进化分析。基于生物序列统计特征,本文提出了三种非比对的快速病毒分类和进化分析的方法。首先,根据氨基酸的三个重要生化特性,结合氨基酸的分布特征,本文提出了一种描述蛋白质序列的24维特征向量。借助该向量,我们对病毒蛋白质进行分类和进化分析。对多个病毒数据集的分析表明,新工具能够快速、准确地对蛋白质进行分类并推断生物的进化关系。其次,HIV-1包含多种亚型,并且HIV-1亚型分类在病毒感染、诊断和药物设计方面都具有重要意义。基于HIV-1基因序列的统计特征,我们提出了一种十分有效地描述病毒序列的数字向量——子序列自然向量(SNV)。SNV包含核苷酸的数量、核苷酸在序列中的平均位置和二阶矩。同时,我们改进了线性判别分析方法,最终实现了对HIV-1亚型的正确分类。在6902个全基因组以及11668个pol基因数据集上的分析表明,SNV方法得到几乎100%的敏感度和特异性。与主流的HIV-1亚型分类方法Kameris、Comet和REGA相比较,SNV方法在准确性上具有明显的优势,并且所花时间也少得多。SNV方法还能够正确构建HIV-1的系统发育树。最后,本文从各类常见病毒的基因序列的统计特征出发,提出了一种非比对的快速病毒分类方法——位置相关自然向量(PCNV)方法。该向量包含核苷酸的频率、平均位置和位置的协方差,能够将基因序列转化为18维向量。通过多个病毒数据集的验证表明,PCNV方法能够快速、准确对病毒分类和构建生物的系统发育树。与基于贝叶斯推理的方法和两种主流的非序列比对的方法进行比较,我们的方法准确率和速度都占优势。
其他文献
学位
科技理念是人们对于科学和技术的各种观点和看法的总和,科学关乎自然本质的认识问题,技术则是在相关认识基础上对自然的利用和改造。科技观念来源于人们的物质生产实践活动,其最初形态就是对自然现象和人类活动的感性印象。随着人类物质生产的发展,对这些活动的感性印象不断增加,慢慢达到对自然本质和人类活动实践特征的把握,进到理性认识阶段。这种理性认识又返回实践,指导实践,并在对实践发挥作用的同时不断提高自己。人类
企业股权结构的治理效应在资本市场中较为常见,但学术界关于股权结构对盈余管理的影响仍然存在“隧道效应”和“利益趋同”的意见分歧。文章以2009—2019年我国A股上市公司为研究对象,探讨公司股权结构在治理管理层盈余操纵行为中发挥的作用。研究发现:(1)机构投资者持股对管理层应计盈余操纵行为起到了积极的抑制作用,但却无助于抑制真实盈余管理行为,股权集中度对盈余管理的影响主要取决于内部控制质量效用的发挥
运动训练工作反刍指在训练之余没有要求其出现的情境下,仍会思考与运动训练相关的事件,它对运动训练既可能产生消极的负性作用也有可能会产生积极正性的作用。竞技动机水平强弱在某种程度上影响到运动员个人日常运动训练的成效和运动参赛成绩,是影响体育运动员获得竞技成就的关键动力指标。目前对运动员工作反刍的研究甚少,它与运动员竞技动机存在何种关系尚缺少相关研究。揭示运动训练工作反刍(情绪反刍、问题解决沉思)与竞技
本文致力于使用最新的积分场光谱巡天——Sloan Digital Sky Survey(SDSS)-Ⅳ项目的Mapping Nearby Galaxies at Apache Point Observatory(MaNGA)巡天的数据,搜寻并研究一类存在大质量恒星的罕见星系Wolf-Rayet(WR)星系,并利用其中大质量恒星WR恒星在光谱中的特征信息,研究恒星初始质量函数是否随着恒星金属丰度有所
世界经济的快速转变,使得各国货物贸易和服务贸易都得以快速发展,其中,80%以上的世界国际货物贸易和90%以上发展中国家的国际货物贸易都主要依靠海运来实现,而且港口又是海洋交通运输的重要节点。因此,港口运输服务贸易在运输服务贸易中占据的地位越来越重要,而集装箱运输服务贸易是主要的海上运输方式之一,其增速大大超过了其他海上运输方式。此次COVID-19疫情的发生对全球的国际贸易造成了巨大的损失,其中对
《国务院关于大力发展职业教育的决定》指出,职教改革要以培育大量素质高、技能过硬的专业人才为目的。经济全球化的进程不断加快,企业对中等职业学校毕业生的需求量在逐年增加。中等职业学校教育是我国教育体系中的重要构成部分,是人才培养的重要途径。《企业财务会计》则是一门综合性非常强的科目,不仅需要从事会计工作人员掌握基本的会计理论知识内容,而且还要求他们具备把在学校以及通过其他渠道所学到的知识运用到工作岗位
本文主要对Variance-Gamma模型下三种资产价格路径模拟方法进行比较研究。我们先定义了VG模型下资产价格,接着介绍了三种桥采样与分层采样相结合的路径生成方法(BGBS,DGBS,PCABGBS),最后用亚式期权实证探究三种方法的模拟效率。实证结果表明,如果我们能合适的选择分层点数量,恰当选择分层中使用的低偏差序列,那么三种方法都能显著提升模拟效率,其中BGBS最优。
制造业作为我国国民经济的基础性支柱产业,在拉动国民经济增长进程中扮演关键角色。自改革开放以来,我国充分利用了低人力成本的典型优势,承接了来自于发达国家的大量产业转移项目,不断推动制造业发展,目前已跻身制造业大国行列之中。近些年,江西省得以得天独厚的自然资源,在制造业发展进程中也有较大突破。然而江西省在保持制造业总产值及附加值持续增长的同时,却面临高技能人才严重匮乏的困境,制约了制造业的进一步发展。
深化校企合作,是中职教育高质量发展的必由之路。当前,校企合作在推进过程中,出现了问题,合作不够深入,对中小微企业重视不足,面对这一问题,需要客观、全面、系统、科学的加以考虑。为使研究更加深入、具体、有成效,将以淮北工业与艺术学校会计专业为例,结合该专业校企合作现状,深入挖掘该专业校企合作不够深入原因,运用利益分析法,分析校企合作各相关主体间关系,理顺、明晰各方最优职责分工,在现行体制机制内,充分调