论文部分内容阅读
研究背景
随着下一代测序技术在医学遗传学中的应用不断扩大,大量的错义变异被检测出来,但是这些变异中只有一小部分对人类疾病有贡献。然而检测这些变异应用实验验证的方法是不可行的,会浪费大量的人力物力,为了解决这些限制,越来越多的计算机方法被开发出来。一般而言,这些方法可以分为三类:(i)功能预测型方法,预测给定的错义变异使蛋白质功能发生改变的可能性;(ii)保守型预测方法,通过多重比对测量突变的保守性程度;(iii)整合型方法,整合来自多组分方法的信息。选择最佳的方法可以加速候选基因的鉴定。然而,在各种条件下不同计算机方法的性能尚未得到完全评估。尽管先前的一些研究比较了现有的计算机方法,但是这些研究中使用了有限的数据集并没有用到经过实验验证的数据,此外,这些研究也主要集中在ROC曲线和AUC值,其他重要的指标(如95%灵敏度或特异性的准确性)没有完全用来评估。另外,在之前的研究中,一些新开发的计算机方法,例如REVEL,VEST3和M-CAP也没有被完全评估。
目的
1.全面系统地评估多种预测方法,总结不同条件下不同方法的性能,为研究人员选择最佳的工具解释错义变异提供初步指导。
2.开发新的预测方法,为鉴定候选基因及筛选致病性变异做出努力。
方法
1.基于三种不同类型的数据集,利用12项指标评估23种致病性预测方法。
2.用计算百分位数的方法整合REVEL和VEST3。
3.基于SSC数据库的新生错义突变评估23种预测方法及ReVe的性能。
4.计算任意两种计算机方法之间的斯皮尔曼等级相关系数,并基于ClinVar数据集表征计算机方法中预测为真阳性(TP)、真阴性(TN)、假阳性(FP)、假阴性(FN)的重叠比值。
结果
1.经评估,一些方法在不同条件下表现出不同的性能,表明它们并不总是适用于不同的条件。
2.大多数方法的特异性低于其敏感性(特别是对于经过实验验证的数据集),表明更严格的阈值对区分致病性变异是重要的。
3.REVEL,VEST3和两种方法的组合(即ReVe)在所有数据中表现出最好的整体性能。
4.功能预测型方法和整合型方法性能相当,并且优于保守型预测方法。
5.对于所有数据,大多数方法在致病性变异中表现出了低于良性变异的相关性,表明这些方法在区分良性变异时有高的一致性,在区分致病性变异时有低的一致性。
6.在不同方法之间,正确预测的变异明显共享,错误预测的变异一致性不明显。此外,TP变异表现出比TN变异更多的一致性,并且FP变异表现出比FN变异更多的一致性。
结论
我们基于不同的数据集利用12个指标评估了23种预测方法的性能,发现REVEL和VEST3以及ReVe在不同条件下要优于其他方法。同时,临床工作者和遗传学家可以根据我们的研究选择合适的工具来解释遗传咨询中错义变异的致病性,并且可以通过整合更多的方法来开发新的预测方法。
随着下一代测序技术在医学遗传学中的应用不断扩大,大量的错义变异被检测出来,但是这些变异中只有一小部分对人类疾病有贡献。然而检测这些变异应用实验验证的方法是不可行的,会浪费大量的人力物力,为了解决这些限制,越来越多的计算机方法被开发出来。一般而言,这些方法可以分为三类:(i)功能预测型方法,预测给定的错义变异使蛋白质功能发生改变的可能性;(ii)保守型预测方法,通过多重比对测量突变的保守性程度;(iii)整合型方法,整合来自多组分方法的信息。选择最佳的方法可以加速候选基因的鉴定。然而,在各种条件下不同计算机方法的性能尚未得到完全评估。尽管先前的一些研究比较了现有的计算机方法,但是这些研究中使用了有限的数据集并没有用到经过实验验证的数据,此外,这些研究也主要集中在ROC曲线和AUC值,其他重要的指标(如95%灵敏度或特异性的准确性)没有完全用来评估。另外,在之前的研究中,一些新开发的计算机方法,例如REVEL,VEST3和M-CAP也没有被完全评估。
目的
1.全面系统地评估多种预测方法,总结不同条件下不同方法的性能,为研究人员选择最佳的工具解释错义变异提供初步指导。
2.开发新的预测方法,为鉴定候选基因及筛选致病性变异做出努力。
方法
1.基于三种不同类型的数据集,利用12项指标评估23种致病性预测方法。
2.用计算百分位数的方法整合REVEL和VEST3。
3.基于SSC数据库的新生错义突变评估23种预测方法及ReVe的性能。
4.计算任意两种计算机方法之间的斯皮尔曼等级相关系数,并基于ClinVar数据集表征计算机方法中预测为真阳性(TP)、真阴性(TN)、假阳性(FP)、假阴性(FN)的重叠比值。
结果
1.经评估,一些方法在不同条件下表现出不同的性能,表明它们并不总是适用于不同的条件。
2.大多数方法的特异性低于其敏感性(特别是对于经过实验验证的数据集),表明更严格的阈值对区分致病性变异是重要的。
3.REVEL,VEST3和两种方法的组合(即ReVe)在所有数据中表现出最好的整体性能。
4.功能预测型方法和整合型方法性能相当,并且优于保守型预测方法。
5.对于所有数据,大多数方法在致病性变异中表现出了低于良性变异的相关性,表明这些方法在区分良性变异时有高的一致性,在区分致病性变异时有低的一致性。
6.在不同方法之间,正确预测的变异明显共享,错误预测的变异一致性不明显。此外,TP变异表现出比TN变异更多的一致性,并且FP变异表现出比FN变异更多的一致性。
结论
我们基于不同的数据集利用12个指标评估了23种预测方法的性能,发现REVEL和VEST3以及ReVe在不同条件下要优于其他方法。同时,临床工作者和遗传学家可以根据我们的研究选择合适的工具来解释遗传咨询中错义变异的致病性,并且可以通过整合更多的方法来开发新的预测方法。