论文部分内容阅读
蛋白质与配体相互作用是蛋白质实现其功能的主要方式。因此,配体结合残基的预测对于了解蛋白质生物功能起到了重要作用,也有助于药物的设计和开发。ATP、ADP、GTP、GDP和NAD五种配体在生物细胞中扮演着重要的角色。例如,ATP就是一种高能磷酸化合物,通过水解释放大量能量;水解一个磷酸基团后的产物就是ADP,ADP存在于血小板细胞内的高密度颗粒内,通过血小板上的ADP受体对血小板的形状及生物学行为产生影响,进一步加速血小板的凝聚过程。所以,配体在生命活动中都发挥着重要的作用。因此,准确识别蛋白中配体结合残基显得尤为重要。由于蛋白质具有种类多,数量大等特点,实验的方法预测蛋白质与配体的结合残基,无论从时间还是经济成本考虑,都不太现实。因此,通过理论计算的方法实现这一目标成为解决这一难题的重要途经。本文基于序列信息识别蛋白质中五种配体结合残基,主要工作如下:(1)分别建立了ATP、ADP、GTP、GDP和NAD五种配体结合残基的数据集,分别包含结合残基3838个、4865个、1316个、1701个和3579个,序列相似性阈值为30%,分辨率阈值为3?。截取固定长度片段,通过大量计算和对比,最终确定以结合残基为中心,17长的氨基酸片段作为研究对象。(2)以五种配体结合残基片段的生物学特性为研究背景,通过对截取的片段建立WEBLOGO图,分析正负集差异,进一步研究五种配体的氨基酸组分特征、位点保守性特征、亲疏水和极性特征、二级结构及保守性、表面可及性信息等。根据研究结果,选取适当信息作为预测五种配体结合残基的特征参数。(3)我们选取了离散增量算法、矩阵打分算法对ATP、ADP、GTP、GDP和NAD五种配体结合残基进行识别。以氨基酸组分信息为特征参数的离散增量算法和位点氨基酸保守性信息为特征参数的矩阵打分算法对五种配体结合残基进行识别,结果并不理想。(4)将氨基酸物化特性、二级结构信息和表面可及性信息作为特征参数,并融合离散增量值、矩阵打分值共同输入支持向量机对结合残基进行预测,得到了较好的预测结果。5交叉检验的ATP、ADP、GTP、GDP和NAD配体结合残基预测总精度分别为77.4%、71.2%、82.1%、82.9%和85.3%;相关系数分别为0.549、0.424、0.643、0.659和0.702。