论文部分内容阅读
甲型流感(甲流)病毒容易受到外部环境或其它影响而产生突变,突变后的病毒容易感染人类,并且能够人传人。因此,一般每隔几年有一次甲流爆发,每隔十几年左右有一次甲流大爆发。从20世纪开始,总共有四次大型流感。其中1918年爆发了范围最广、影响力最大的“西班牙流感”,全世界约有10亿人感染了流感,其中大概有4000万人死亡。因此,甲流病毒早期预警的研究是至关重要的,而利用生物信息学方法研究它是非常好的一种手段。本文以甲流病毒蛋白质序列作为研究对象,构建突变度模型,利用蛋白质之间特征信息构建甲流病毒蛋白质动态网络,为甲流爆发提供有效的预警信号。主要工作如下:(1)本文选取了1916年至2014年报道的甲流病毒HA蛋白质序列,个别年份数据缺失除外。首先将s-1年的甲流病毒HA蛋白质序列中每个对应的氨基酸依次对比,取出它们出现次数最多的氨基酸,按顺序依次排列形成一个新的序列。其次,将s年的甲流病毒HA蛋白质序列与形成的序列比对,计算出每年HA蛋白质的标准差。最后算出每年它的突变度。当突变度值比较大时,s年甲流病毒HA蛋白质相对于s-1年变化比较大,即突变率比较高。因此,可以通过观察突变度值的变化,就能直观的发现甲流病毒HA蛋白质的突变情况。(2)基于上述方法,选取了1933年到2015年甲型流感病毒十种蛋白质氨基酸序列,除有个别年份有部分蛋白质数据缺失外,计算出每年甲型流感病毒蛋白质的标准差、算术平均值和变异系数。通过分别计算出甲流病毒二十种氨基酸的频率,构建出十种蛋白质序列的23种特征信息。定义了每年十种蛋白质动态网络生物标志物的核心蛋白质,分别计算出核心蛋白质之间的特征距离和非核心蛋白质与核心蛋白质之间的特征距离。因此,利用生物标志物之间的相关性构建出一个甲流病毒网络。这个网络呈现出动态性,再结合甲流病毒蛋白质动态网络生物标志物的性质,得到一个复合指标Ⅰ。发现当甲流病毒接近爆发前的临界状态或者爆发状态,复合指标Ⅰ能够提供一种可靠的、显著的信息来预测甲流病毒临界爆发期或者爆发期。说明在甲流病毒蛋白质网络层面上考虑系统动态网络生物标志物,可以更稳定、更准确地判断出甲流病毒所处的状态。通过构建突变度模型,利用蛋白质之间特征信息构建甲流病毒蛋白质动态网络,为预测甲流爆发可能性提供一个有效的预警信号。这对甲流病毒的研究和预警有着重要的意义。