论文部分内容阅读
单核苷酸多态性(SNP)是指由单个脱氧核苷酸变异引起的基因序列的多态性,SNP能够帮助定位与疾病相关联的基因,从而解开复杂疾病的遗传病因。随着高通量基因分型技术的高速发展,SNP的数量大到足以覆盖到整个基因组,在全基因组范围内探测关联SNP位点变得可行。全基因组关联研究(GWAS)就是对全基因组范围内的SNP位点进行研究,以期发现某些与复杂疾病相关联的致病基因。然而由于全基因组关联数据超高维、样本小的特性,使得关联SNP的探测具有很高的挑战性。随机森林(RF)是一种先进的机器学习方法,应用于一些复杂疾病的全基因组关联研究。RF在一些规模不大的数据集中具有较好的预测精度,但是其依然存在着在大型数据集中建立精准预测模型的难题。针对上述难题,本文提出了一个基于随机森林的两步骤SNP子集分类的方法——TSRF(Two Steps SNP subset classification method based on Random Forest),应用于GWAS数据集中建立精准的随机森林模型。第一步,对每个SNP位点计算其重要性分数(IS),然后通过Wilcoxon秩和检测对每个SNP计算一个p-值,再设立一个阈值,将原始数据集中p-值高于该阈值的SNP删除,剩余的SNP被认为是一个相关SNP子集;第二步,利用卡方检测(χ2)对相关SNP子集进行统计显著性计算,根据得到的卡方值的高低,再设定某个阈值,将剩下的相关联SNP进一步分入到两个子集中去:高相关与低相关SNP子集。构建RF里的每颗决策树时,在节点分裂进行特征子集抽样时,就只会按比例抽取这两个子集中的SNP,因而最终的预测结果总是只考虑相关的SNP。TSRF方法有效地对全基因关联数据集进行降维,最终生成更精准的随机森林模型,同时降低了泛化误差,还可以避免过拟合。在帕金森病和老年痴呆症真实数据集上我们对TSRF方法进行测试评估,并且将该方法与传统的RF方法以及近年提出的GRRF和WSRF方法进行比较。测试结果表明,当病例-对照的数据对象远少于SNP数量时,TSRF方法的预测精度更高,同时泛化误差更低,是优于这些方法的。最后,通过TSRF方法识别出帕金森病的病例-对照数据集中比较靠前的潜在的关联SNP,为后续的生物学验证实验提供指导作用。