结核分枝杆菌分泌蛋白的预测研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:sunzhiqiang7310
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
结核分枝杆菌,简称结核杆菌,是一种轻度弯曲的细杆状嗜氧菌,在细胞壁脂质层和荚膜的双重保护下,对外界环境很不敏感,被证明是结核病的元凶。我国的结核病形势向来严峻,尤以肺结核最为严重,每年有约上百万死亡病例。肺结核是一种慢性的呼吸道传染病,早期无明显症状,病程漫长,极易在人群中流行而难于控制。由于结核杆菌的膜结构复杂,点突变频发,上百年来无数医药学家致力于结核分枝杆菌的分子结构和毒性研究,以及结核病的病理研究,但至今尚无能够彻底防治该病的临床药物。最近研究发现,其分泌蛋白具有抗原性,根据抗原与抗体发生特异性结合的性质,可通过识别分泌蛋白来获取抗体,从而为疫苗研发和新药设计提供有价值的线索。本文开发了一种用于识别结核分枝杆菌的分泌蛋白的预测算法,并提供在线服务。首先,我们构建了结核分枝杆菌蛋白质的标准数据集。数据源自UniProt中已经过实验验证的蛋白质序列,并通过CD-HIT软件从最大程度上去除冗余,最终获得了分别包含35条序列和266条序列的正、负样本集。随后,我们提取了蛋白质序列的g-gapped二肽组分特征和物化性质特征,从而将每条序列编码成其独有的特征向量。最后,借助于支持向量机构建和学习预测模型,并在得到最优模型参数的基础上进行特征选择,进一步提高了预测模型的分类效能。结果,我们将每条多肽表示成一个374-维的特征向量,其中包括9-gapped二肽特征和序列的疏水性/亲水性特征,经jackknife检验,用该方法预测分枝杆菌分泌蛋白的平准准确度为87.18%,ROC曲线下面积高达0.93。为验证模型的优越性,本文用Weka软件实现了随机森林、贝叶斯网络和径向基函数三类有代表性的机器学习算法,在同一标准数据集上重新构建预测模型。Jackknife检验再次证明,基于支持向量机的预测模型在该问题上的性能优于其他三类模型,鲁棒性强。为便于领域内的科研人员交流和共享,特构建界面友好的在线服务平台MycoSec(http://lin.uestc.edu.cn/server/MycoSec/),可免费用于非商业用途。
其他文献
2008年9月21日至23日,由辽宁省中小企业教育培训中心与辽宁省建筑材料工业协会联合举办的辽宁省建材行业中小企业节能减排工作培训班在沈阳柳湖宾馆举行。此次培训班是国家银
本文从跳闸故障和非跳闸故障两方面说明变电运行故障处理中的巡视检查,可供参考。
横流中的湍流射流涡旋结构复杂,湍流模型对其模拟结果影响很大。采用S-A,Realizable k-ε,k-ω和SST k-ω四种湍流模型对吹风比为0.5和1.5工况下的横流中射流进行了数值模拟
在工业与民用建筑施工中,许多工程技术人员在工程中遇到软弱地基处理问题。在施工中,必须针对不同的软弱地基特眭,根据建筑物场地上的地质条件,设计施工条件,环境条件以及加固效果
本文通过对铁铺至钱东一级公路的路基边坡防护设计的处理方法,论述了在深路堑和高填方地段如何进行路基边坡防护的问题。
10kV电缆T接箱做为电缆线路的一种简易分接设备,与开闭站相比具有造价低廉、安装维护方便、占地面积小及设备事故率较低的优点。本文通过分析网架结构及负荷特点在配网建设改
雕塑在居住区中占有重要的地位,好得雕塑设计有助于创造出充满活力的居住环境。居住区环境中的雕塑设计从主题的选定,材料的运用,以及具体位置的确定都与其他类型的环境有着