论文部分内容阅读
表位是抗原与机体相互作用过程中,刺激机体的免疫系统发生特异性免疫应答的基本单位。B细胞表位是指抗原表面可以被抗体或B细胞受体(BCR)识别、诱导机体产生免疫反应的区域。识别B细胞表位有助于设计能够模拟真正表位结构和功能的分子,并在抗体诊断和治疗中取代它,设计出更加安全的疫苗。研究B细胞表位预测一方面有助于推动基础免疫学的发展,另一方面也有助于疾病的预防与诊断。定位B细胞表位最可靠的方法是实验方法,如X射线晶体学和核磁共振技术,但它们既耗时又昂贵。因此,在生物实验之前,通过计算方法选择的候选表位可以显著降低实验成本,提高工作效率。目前,根据算法输入的数据类型和计算方法所采用的策略,可以将基于计算方法的B细胞表位预测分为三类:一是基于抗原三维结构的B细胞表位预测、二是基于模拟表位的B细胞表位预测,三是基于抗原序列的B细胞表位预测。基于抗原三维结构方法通过从数据库获取的抗原结构的数据,提取与抗原表位相关联的几何属性、理化性质等表位相关的特征,进而通过评分规则或者机器学习方法来预测抗原表位;基于模拟表位信息的预测方法使用来自于噬菌体展示实验中获得的模拟表位序列数据信息,同时还需要抗原的三维结构数据作为输入,这类方法在实际应用中需要依赖生物实验得到的模拟表位序列;基于抗原序列的B细胞表位预测方法仅需要抗原的序列信息作为算法的输入,通过提取抗原序列氨基酸的表位相关特征,组成特征向量或特征矩阵,进而通过评分或者机器学习的方法来预测表位残基。由于测序技术的发展,抗原序列数据更加容易获得,近年来多个基于抗原序列的B细胞表位的方法被提出,这些方法在一些特定的数据集上都取得了较好的预测结果。在本文中,我们构建了一个基于抗原蛋白质序列的B细胞表位预测深度集成架构。我们采用了One hot和理化性质等特征对抗原序列片段进行编码,分别构建了7个独立的卷积神经网络,然后利用加权平均的方法对7个网络进行整合。在BepiPred 2.0测试数据集上对提出方法进行了评估。实验结果表明,本文提出的预测方法的AUC为0.771,敏感性为0.711,马氏相关系数为0.222。此外,我们又在13个独立测试案例上评估了方法的性能,结果表明本文方法的性能在一定指标上优于现有的其他方法。因此,本文提出的方法能够有效地进行B细胞表位预测。