论文部分内容阅读
由于不改变蛋白质的氨基酸序列,同义突变曾被认为是一种没有功能的单核苷酸突变。但随着测序技术的发展和相关研究的深入,近年来,同义突变已被证实与多种疾病的发生发展密切相关。但是,传统的鉴定同义突变功能的生物实验方法存在通量低和代价高等问题。近年来,研究人员开展了基于计算方法的致病同义突变预测研究,但这些方法存在一定的局限性,例如:缺乏充足的训练数据、多种方法预测结果不一致和预测精度仍然有待提升等。此外,多种突变数据库和基因组算法碎片化和异质性使得获取系统的致病同义突变信息具有挑战性。针对这些问题,本文开展了以下工作:(1)基于特征表示学习的致病同义突变预测方法研究。通过探索四组特征(功能打分、保守性、剪切和序列特征),并分别使用8种机器学习分类器对每组特征进行训练,最终得到32个基分类模型。而后分别根据4组特征对应基分类模型的预测性能,选择将4种最优基分类模型的预测概率作为特征向量并输入逻辑回归分类器,构建了基于集成框架的精确预测方法En DSM。与其他方法相比,本方法在独立测试数据集上的性能较优。En DSM网页服务接口以及基准数据集详见:http://bioinfo.ahu.edu.cn/En DSM。(2)致病同义突变预测方法的比较与整合研究。首先从算法使用、特征表示、性能评估和软件可用性等方面系统地比较了10种计算方法(包括针对致病同义突变的特异性方法和单核苷酸突变的广谱性方法)。然后构建了2个高质量基准独立测试数据集,并据此评估了这些计算方法识别致病同义突变的鲁棒性和可扩展性。最后基于评估结果,使用概率平均方法通过对3个性能较好且相关性较低方法的整合,构建了一致性打分整合模型Pr DSM。基准测试集上的结果表明,该方法优于其他工具。Pr DSM预测工具详见:http://bioinfo.ahu.edu.cn:8080/Pr DSM。对于致病同义突变预测方法的全面比较分析,可以作为一个有效的指导启发致病同义突变预测计算方法未来的发展。(3)更加完备的致病同义突变数据库构建。更新和发展了2016年开发的致病同义突变数据库(db DSM),构建了第二版致病同义突变数库db DSM v2.0。首先整理了约18,000篇同义突变相关文献摘要,并进一步对1,000多篇文献进行了全文审查。与第一版数据库相比,db DSM v2.0数据库中新增了致病同义突变数据并且提供了更多基础注释信息,包括转录本和人类基因组变异协会规定的突变命名。在同义突变数据更新的基础上,增加了六个类别的新注释特征,包括功能打分、保守性、剪切、翻译效率、转录因子结合位点和序列特征。基于这些特征注释信息,使用投票方法对六类特征进行整合,构建了一个致病性打分系统并将全基因组范围内高置信度打分的潜在致病同义突变整合到db DSM v2.0中。此外,基于该打分系统对TCGA来源的28种癌症类型进行分析,筛选出潜在的预后标志物。db DSM v2.0详见:http://bioinfo.ahu.edu.cn:8080/db DSM/index.jsp。