论文部分内容阅读
核苷酸多态性(Nucleotide Polymorphisms)是人类基因变异中常见的变异形式,包括单核苷酸多态性(Single nucleotide Polymorphisms,SNPs)和多核苷酸多态性。其中,单核苷酸多态性出现的最多。这些变异最终可能影响到基因的表型。目前已知很多人类疾病都与SNPs有关。由于其分布广,密度高,在诸如癌症、糖尿病、高血压和哮喘等复杂疾病的研究中得到了重视。大量SNPs的分析结果表明,由SNPs导致的等位基因变异分布在基因的各个区域,特别是基因的编码区。存在于编码区的SNPs可能改变基因表达产物--蛋白质的氨基酸残基的种类,使蛋白质的结构和功能发生变化,从而导致人类对某些疾病,尤其是癌症的易感性。研究表明,与人类疾病相关的基因变化大约有一半是由SNPs引起的。因此,对SNPs与疾病关系的预测研究具有重要意义。
目前已经有许多SNPs与疾病关系的预测方法出现,大部分都是利用蛋白质序列的进化信息或结构信息。研究表明,与蛋白序列中的非保守位点相比,导致疾病的突变更多的发生在序列的保守位点,这表明预测可以基于序列的同源性,即进化信息可以作为预测因子。另外,致病性氨基酸突变与中性突变相比,它们所在的蛋白质具有不同的结构特征,这表明结构信息也可以用作预测因子。因此,许多研究者提出根据同源性或者结构信息的预测方法,比如Ng和Henikoffti提出SIFT(Sorting Intolerant from Tolerant)分类方法,Clifford等人提出the Pfam-basedLogR.E-value分类法,Bao等人提出用同源信息和结构信息训练支持向量机和随机森林分类方法。尽管这些方法能够识别致病SNPs,但是它们在准确度、灵敏度等指标上还不够理想,有待进一步改善。因此,本文在研究变异位点进化信息和结构信息的基础上,针对Bao等人用同源信息和结构信息的分类方法,提出改善预测准确度、灵敏度等指标的方法。
本文主要在以下几个方面展开工作:
首先,选取比对工具。介绍序列比对的意义及常用工具,并选取适合本文蛋白质序列分析的比对软件,主要是为下文对包含非同义变异的蛋白质序列的同源序列搜索与序列比对选择合适的工具。
其次,对于蛋白质序列上的变异,本文参考Parepro(Predicting the amino acidreplacement probability)方法构造向量,每个向量含有95个分量,每个分量代表一个特征。这些特征对于最终分类结果提供了大量的信息,对于提高最终预测效果有很大帮助。
再次,研究利用了最常用的分类模型支持向量机(SVM)模型。为了达到更好的模型训练效果,在SVM的训练和结果的预测上根据预测效果选择径向基核函数,并训练选择适当的交叉比对次数。此外,在Parepro构造出的向量第95个属性值后面,加入新的表型预测因子--变异容忍度值SIFT Score作为第96个分量,更好地将不影响表型的普通变异和致癌变异两类数据分开。
最后,把新的预测结果与Bao等人结合结构信息和进化信息的支持向量机预测方法结果以及SIFT。预测结果在预测准确率,灵敏度,特异性和马修相关系数四个方面进行比较,表明本文的方法在几个方面都有所提高。