论文部分内容阅读
生命科学技术的迅猛发展极大地丰富了生命科学的数据资源。这些数据蕴含了许多重要的化学生物学规律。目前,大量的蛋白质一级序列已被测定,但结构与功能的测定与一级结构的增加不成比例。因此,由序列出发预测蛋白质结构功能己成为后基因组时代和现代生物信息学的研究热点。本论文基于近年来不断涌现的蛋白质序列数据,采用新兴的机器学习方法——支持向量基对蛋白质功能进行预测。其主要内容如下:
1.建立了凋亡蛋白亚细胞位点预测新方法。采用改进的遗传算法同时优化支持向量机的核参数和蛋白质一级结构特征子集,并采用“一对一”的分类策略,预测凋亡蛋白亚细胞位点。对标准数据集进行Jackkinfe交叉验证,其预测精度为94.9%,优于文献报道值。结果表明:本文提出的方法能够得到表征蛋白质一级结构序列的最优特征子集,从而提高预测成功率。
2.建立了蛋白质亚核位点预测的新方法。该方法采用最佳优先搜索策略来融合基于蛋白质结构和物理化学性质的不同特征,并将最优的融合特征子集作为支持向量机的输入用于预测蛋白质亚核位点。对标准数据集进行5-折交叉验证。结果表明:采用经过最佳优先搜索策略选择的最佳融合特征子集能获得比单个特征或其他融合特征子集更高的预测精度。