论文部分内容阅读
蛋白质序列特征提取是生物信息学研究中的关键环节。基于内容的氨基酸组分特征K-mer是常用的蛋白质特征提取方法,但对较短序列存在特征表达稀疏的缺陷。伪氨基酸序列进化信息(PsePSSM)源自位置特异性得分矩阵(PSSM),能反映序列进化信息且适于不等长序列,但其容错性优点尚未引起足够重视。本文将PsePSSM应用于蛋白质-ATP结合位点预测和膜蛋白分类,结果报道如下:基于伪氨基酸序列进化信息的蛋白质-ATP结合位点预测。蛋白质-ATP结合位点预测是高度不均衡的二分类问题,通过机器学习高精度预测蛋白质-ATP结合位点对研究蛋白质功能和药物设计意义重大。其样本序列等长、现有研究多经验性地选取窗口长度17aa、以位置特异性得分矩阵(PSSM)提取特征、用支持向量分类(SVC)建模预测,其独立预测Acc虚高、MCC偏低,预测精度尚有较大提升空间。本文以互信息I确定窗口长度为15aa、以更具容错性的PsePSSM提取特征、以相同正样本不同负样本构建多个1∶1 SVC分类器、最后进行简单投票,对两个蛋白质-ATP结合位点数据集ATP168与ATP227均获得了明显优于参比特征提取方法的独立预测结果,其MCC值分别从0.3110~0.5360、0.3060~0.553提升至0.7512、0.7106。进一步,我们阐明了PsePSSM容错性强的原因。基于伪氨基酸序列进化信息的膜蛋白分类预测。膜蛋白分类预测是一个典型的蛋白质序列不等长、多分类问题。PsePSSM能有效解决序列不等长问题,因本文所用数据集中最短序列为50aa,取最大间隔距离为25aa,则每条序列可用520个PsePSSM特征表征。以SVC建模预测,其独立预测精度Acc为66.86%。特征选择往往可降低模型复杂度、提高预测精度;采用可自动终止特征引入的特征选择方法MIC-share,获得了一个包含16个保留特征的最优特征子集,其独立预测精度Acc为86.41%,较未实施特征选择有大幅度提升。进一步讨论了OVO(一对一)、OVA(一对余)、HC(层次分类)等三种多分类转二分类策略对预测精度的影响。反映序列进化信息、适于不等长序列、容错性强的PsePSSM在蛋白质序列特征提取方面有广泛应用前景。