论文部分内容阅读
结核分枝杆菌,简称结核杆菌,是一种轻度弯曲的细杆状嗜氧菌,在细胞壁脂质层和荚膜的双重保护下,对外界环境很不敏感,被证明是结核病的元凶。我国的结核病形势向来严峻,尤以肺结核最为严重,每年有约上百万死亡病例。肺结核是一种慢性的呼吸道传染病,早期无明显症状,病程漫长,极易在人群中流行而难于控制。由于结核杆菌的膜结构复杂,点突变频发,上百年来无数医药学家致力于结核分枝杆菌的分子结构和毒性研究,以及结核病的病理研究,但至今尚无能够彻底防治该病的临床药物。最近研究发现,其分泌蛋白具有抗原性,根据抗原与抗体发生特异性结合的性质,可通过识别分泌蛋白来获取抗体,从而为疫苗研发和新药设计提供有价值的线索。本文开发了一种用于识别结核分枝杆菌的分泌蛋白的预测算法,并提供在线服务。首先,我们构建了结核分枝杆菌蛋白质的标准数据集。数据源自UniProt中已经过实验验证的蛋白质序列,并通过CD-HIT软件从最大程度上去除冗余,最终获得了分别包含35条序列和266条序列的正、负样本集。随后,我们提取了蛋白质序列的g-gapped二肽组分特征和物化性质特征,从而将每条序列编码成其独有的特征向量。最后,借助于支持向量机构建和学习预测模型,并在得到最优模型参数的基础上进行特征选择,进一步提高了预测模型的分类效能。结果,我们将每条多肽表示成一个374-维的特征向量,其中包括9-gapped二肽特征和序列的疏水性/亲水性特征,经jackknife检验,用该方法预测分枝杆菌分泌蛋白的平准准确度为87.18%,ROC曲线下面积高达0.93。为验证模型的优越性,本文用Weka软件实现了随机森林、贝叶斯网络和径向基函数三类有代表性的机器学习算法,在同一标准数据集上重新构建预测模型。Jackknife检验再次证明,基于支持向量机的预测模型在该问题上的性能优于其他三类模型,鲁棒性强。为便于领域内的科研人员交流和共享,特构建界面友好的在线服务平台MycoSec(http://lin.uestc.edu.cn/server/MycoSec/),可免费用于非商业用途。