基于支持向量机的蛋白质功能预测研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:wushenjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生命科学技术的迅猛发展极大地丰富了生命科学的数据资源。这些数据蕴含了许多重要的化学生物学规律。目前,大量的蛋白质一级序列已被测定,但结构与功能的测定与一级结构的增加不成比例。因此,由序列出发预测蛋白质结构功能己成为后基因组时代和现代生物信息学的研究热点。本论文基于近年来不断涌现的蛋白质序列数据,采用新兴的机器学习方法——支持向量基对蛋白质功能进行预测。其主要内容如下: 1.建立了凋亡蛋白亚细胞位点预测新方法。采用改进的遗传算法同时优化支持向量机的核参数和蛋白质一级结构特征子集,并采用“一对一”的分类策略,预测凋亡蛋白亚细胞位点。对标准数据集进行Jackkinfe交叉验证,其预测精度为94.9%,优于文献报道值。结果表明:本文提出的方法能够得到表征蛋白质一级结构序列的最优特征子集,从而提高预测成功率。 2.建立了蛋白质亚核位点预测的新方法。该方法采用最佳优先搜索策略来融合基于蛋白质结构和物理化学性质的不同特征,并将最优的融合特征子集作为支持向量机的输入用于预测蛋白质亚核位点。对标准数据集进行5-折交叉验证。结果表明:采用经过最佳优先搜索策略选择的最佳融合特征子集能获得比单个特征或其他融合特征子集更高的预测精度。
其他文献
离子液体具有很多优良而独特的性质,如熔点低、Lewis酸度可调节、导电性良好、电化学窗口宽、蒸气压可忽略、溶解性特殊及热稳定性。但是如何认识离子液体的本质,实现离子液
学位
植物细胞的生长发育受到多种信号因子的调控,其分子机制的揭示和阐明有助于深化对细胞信号转导领域的理解,也将极大克服制约我国农业、林业等应用领域发展的一些亟需解决的技