论文部分内容阅读
在人类基因组计划完成后,以研究蛋白质间相互作用与识别为核心的蛋白质组学(Proteomics)迅速兴起。其中蛋白质-配体对接方法是研究蛋白质之间相互作用与识别的主要内容之一,它可以对研究细胞中蛋白质序列-结构-功能的关系提供重要的理论参考价值,对蛋白质交互作用的研究、蛋白质复合物预测以及计算机辅助药物设计具有重要意义。目前使用基于蛋白质序列的方法来预测蛋白质-蛋白质和蛋白质-配体离子结合位点已经有了较为完善的方法。特别是随着蛋白质结构预测精度的不断提高,研究人员可以获得更高精度的蛋白质三维空间结构。进而可以构建精确的蛋白质结合位点预测模型。特征提取与选择是特征成功表示的重要一步,也是后续构建有效模型的关键组成部分。为了更有效的表达蛋白质序列信息,本文从特征提取和特征选择两方面对蛋白质金属离子和自由基离子信息表示的方法进行研究。本文通过提取蛋白质序列的PSSM打分矩阵、二级结构、氨基酸组成、CKSAAP结构信息、溶剂可及表面积、正负电荷等14种特征,然后通过串联方式将所有特征合并在一起得到一个高维、稀疏的矩阵来表达蛋白质序列的特征信息。接着本文提出一个加权特征选择方法(Weighted Feature Selection,WFS)对特征进行选择,并通过特征选取方法删去冗余和不相关的特征来进一步降维,减少算法运行时间。由于本文处理的数据集样本数量差别很大,为最大限度的提高特征选择的质量,最后本文分别使用卡方检验特征选择、sfm特征选择、随机森林特征选择、WFS特征选择四种方法对不同的数据集使用动态的选择策略。实验证明该策略有比较好的效果。在提取特征后,为了构建更为有效的预测模型,本文提出了一个基于Tscore得分和分类器不一致度量得分的多分类器动态选择集成模型。该模型分类两个阶段,单分类器排序和多分类器动态选择集成。在第一个阶段中首先使用分类器池中的单分类器分别对训练集进行训练,每个分类器得到一个Tscore得分,然后依据此得分对所有的分类器进行降序排列。在第二个阶段中依次在集成分类器池中选择单分类器,如果当前的集成分类器Tscore得分大于上一步的得分并且分类器不一致性度量指标大于某个阈值,则继续添加分类器,否则停止集成。最后将本文提出的方法应用到蛋白质金属离子和自由基离子结合位点预测的问题中,通过在公开数据集上进行实验,得到了较好的预测效果;然后与经典预测算法进行对比,验证了本文方法的有效性。