论文部分内容阅读
乙型流感病毒是一种季节性人类流感病毒,包括Yamagata和Victoria两个分支(分别简称为BY和BV)。由于流感病毒突变较快,病毒的抗原变异也经常发生变化,导致流感病毒疫苗的效率降低甚至失效。理解乙型流感病毒的抗原变异和进化规律,有助于发展更加快速有效的方法确定病毒发生的抗原变异和及时地发现抗原变异病毒。在本文中,我们通过生物信息学的方法,首先通过整合乙型流感病毒的基因序列、结构和抗原数据,确定了该病毒的五个抗原表位A-E。基于对抗原变异与位点/抗原表位变化的关联分析,发现A、B和E表位对乙型流感病毒的抗原变异的影响最大;BV和BY分支的抗原变异关键位点差异较大。然后,基于位点和抗原表位的序列和结构特征,选取多个机器学习模型对乙型流感病毒两个分支的抗原变异进行预测建模。我们发现在基于位点建模中,等价矩阵(0/1)是众多打分矩阵中最合适的方法;随机森林模型是四个机器学习方法中效果最好的模型;BY和BV两个分支的最优预测模型并不相同,但两者的最优准确率和AUC值均能达到0.93和0.97。最后,基于抗原变异预测模型,建立基于基因序列的抗原类预测方法,对乙型流感病毒两个分支的抗原类分别进行预测,确定了BV分支中的四个抗原类和BY分支中的五个抗原类,它们与世界卫生组织(WHO)公布的实际流行抗原类的流行时间大致相符。基于抗原分类,我们系统研究了乙型流感流感病毒两个分支在全球和亚洲的抗原类时空动态演化,发现两个分支中的大部分抗原类都最先在亚洲出现和流行,特别是在东亚和东南亚,揭示这些地区可能是乙型流感病毒抗原类的源头。综上,本论文的研究不仅可以加深我们对于乙型流感病毒抗原变异和进化规律的理解,具有一定的理论价值,而且该论文发展的基于基因序列的抗原变异预测模型可以帮助快速确定乙型流感病毒发生的抗原变异和及时发现抗原变异病毒,对于该病毒的监测和防控提供方法学基础,具有重要的实际应用价值。