论文部分内容阅读
由于密码子的简并性,同义突变并不改变最终的氨基酸序列,所以它在过去一直被认为是沉默的,是不会对生物个体产生任何影响的。但现在越来越多的实验已经证明同义突变可以通过不同的机制如密码子使用偏好性,翻译效率等扰乱基因的表达和细胞的功能进而影响疾病发生发展过程。同时,由于致病性的同义突变的发病率较低,如何正确区分致病性和中性的同义突变具有一定的挑战性。近年来虽然已经开发了许多用于预测单核苷酸突变体的功能影响的方法和工具,专门设计用于预测同义突变的工具却非常少,而且这些方法的预测性能还需进一步提升。根据当前同义突变预测方法的研究现状,我们首先从数据和特征层面构建了一个有较优性能的预测模型 IDSV(Identifying Deleterious Synonymous Variants),然后从算法层面上对其进行优化得到模型IDSV-Ⅱ(Identifying Deleterious Synonymous Variants-model Ⅱ)以进一步提升预测性能。在数据及特征层面,首先通过采用来源可靠的均衡的训练集数据,量化得到丰富的有较高分类能力的特征,并利用序列后向选择方法得到了最优特征子空间,最后使用合适的分类器随机森林算法构建了一种新的预测模型IDSV来预测有害同义突变。实验结果表明,IDSV与SilVA,DDIG-SN,TraP,CADD和FATHMM-MKL这几个预测突变有害性的工具相比更有优势。此外,实验结果也表明保守性,剪切以及翻译效率对于识别有害同义突变的作用较大。虽然功能区域注释和序列特征的分类预测能力不是很强,但它们能够在与其他预测特征相结合时正确区分有害和良性同义突变体。因此保守性,剪切,序列,翻译效率以及功能区域注释特征都有利于预测有害同义突变。在算法层面,基于上述简单的预测模型IDSV,对其分类器进行了改进得到模型IDSV-Ⅱ以优化预测性能。首先由于实验数据较少,参考五折交叉验证分割数据的方式将训练集切割形成五个子训练集和对应的五个子验证集,并随之构建了五个子随机森林模型。其次,随机森林是一个基于决策树的bagging类型的集成学习算法,可能会集成一些与目标分类结果相关性较弱且相互之间冗余性较强的子树,因此根据子验证集的结果对每个子随机森林模型中的子树进行了相关性和冗余性筛选,并最终集成得到优化后的随机森林模型IDSV-Ⅱ。两项综合指标F-measure和AUC结果表明IDSV-Ⅱ与之前提出的模型以及现有的几个预测工具相比性能有所提升。近年来,生物医学研究人员对同义突变相关研究越来越关注,这就使得同义突变的数据在不断的扩充,各项同义突变的致病机理的研究工作也在不断地展开,而本课题组构建的有着良好分类性能的同义突变预测模型(IDSV和IDSV-Ⅱ)将会对他们的研究工作提供极大的便利。同时在个性化精准医疗快速发展的今天,这些方法也能作为一种有效的辅助疾病诊断和预防的手段。