论文部分内容阅读
G蛋白偶联受体(G-protein coupled receptor,GPCR)由一条7次穿插细胞膜的多肽链组成,属于人体内最大的膜受体蛋白家族。G蛋白偶联受体作为常见的药物靶向分子,通过与信号分子结合激活G蛋白来完成细胞信号的传递。该类受体的功能失调与多种疾病相关联,因此深入研究G蛋白偶联受体对细胞的信号转导机制及新药的开发都有重要意义。目前已知的G蛋白偶联受体序列少于人类基因组所能编码出来的该类蛋白序列,因此挖掘新的GPCR作为候选药物靶标还有很大发展空间。传统实验方法确定GPCR代价高且效率低,因此基于生物信息学计算方法对GPCR家族分类进行预测具有重要研究意义和应用价值。 本文研究了GPCR序列的数据特性,采用隐马尔可夫模型(HMM)构建了人类GPCR家族分类的预测模型。针对HMM的Baum-Welch训练算法易陷入局部极点值的不足,考虑到粒子群优化算法较强的全局寻优能力,提出将具有多加权系数的自适应粒子群优化算法(MAPSO)引入到HMM的训练中,优化HMM的参数。实验结果表明,改进的预测模型在敏感度、专一度及准确率上都有明显提高。 本文采用GPCRDB数据库中关于人类GPCR的五大超家族数据集进行实验,结果表明所提出的预测模型在GPCR家族的分类预测上取得了预期的效果。采用数据分类和k-折交叉验证方法对模型的敏感度、专一度和准确率进行评价,交叉验证结果表明,五大超家族的分类预测取得了较高的平均精度。通过与多种方法进行比较,所提算法进一步改进了G蛋白偶联受体超家族的分类预测性能。本文在最后提出了关于GPCR亚家族预测的HMM计算降维方法等进一步的研究方向。