基于随机森林的全基因组关联研究

来源 :湖南师范大学 | 被引量 : 2次 | 上传用户：zjqzc

【摘要】

：

单核苷酸多态性(SNP)是指由单个脱氧核苷酸变异引起的基因序列的多态性,SNP能够帮助定位与疾病相关联的基因,从而解开复杂疾病的遗传病因。随着高通量基因分型技术的高速发展

【作者】

：

崔凯

【出处】

：

湖南师范大学

【发表日期】

：

2016年01期

【关键词】

：

全基因组关联研究复杂疾病随机森林 SNP

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

单核苷酸多态性(SNP)是指由单个脱氧核苷酸变异引起的基因序列的多态性,SNP能够帮助定位与疾病相关联的基因,从而解开复杂疾病的遗传病因。随着高通量基因分型技术的高速发展,SNP的数量大到足以覆盖到整个基因组,在全基因组范围内探测关联SNP位点变得可行。全基因组关联研究(GWAS)就是对全基因组范围内的SNP位点进行研究,以期发现某些与复杂疾病相关联的致病基因。然而由于全基因组关联数据超高维、样本小的特性,使得关联SNP的探测具有很高的挑战性。随机森林(RF)是一种先进的机器学习方法,应用于一些复杂疾病的全基因组关联研究。RF在一些规模不大的数据集中具有较好的预测精度,但是其依然存在着在大型数据集中建立精准预测模型的难题。针对上述难题,本文提出了一个基于随机森林的两步骤SNP子集分类的方法——TSRF(Two Steps SNP subset classification method based on Random Forest),应用于GWAS数据集中建立精准的随机森林模型。第一步,对每个SNP位点计算其重要性分数(IS),然后通过Wilcoxon秩和检测对每个SNP计算一个p-值,再设立一个阈值,将原始数据集中p-值高于该阈值的SNP删除,剩余的SNP被认为是一个相关SNP子集;第二步,利用卡方检测(χ2)对相关SNP子集进行统计显著性计算,根据得到的卡方值的高低,再设定某个阈值,将剩下的相关联SNP进一步分入到两个子集中去:高相关与低相关SNP子集。构建RF里的每颗决策树时,在节点分裂进行特征子集抽样时,就只会按比例抽取这两个子集中的SNP,因而最终的预测结果总是只考虑相关的SNP。TSRF方法有效地对全基因关联数据集进行降维,最终生成更精准的随机森林模型,同时降低了泛化误差,还可以避免过拟合。在帕金森病和老年痴呆症真实数据集上我们对TSRF方法进行测试评估,并且将该方法与传统的RF方法以及近年提出的GRRF和WSRF方法进行比较。测试结果表明,当病例-对照的数据对象远少于SNP数量时,TSRF方法的预测精度更高,同时泛化误差更低,是优于这些方法的。最后,通过TSRF方法识别出帕金森病的病例-对照数据集中比较靠前的潜在的关联SNP,为后续的生物学验证实验提供指导作用。

其他文献

颅脑手术后面孔失认症1例报告

面孔失失认认证是一种特殊形式的视觉失认,其常见原因有遗传、卒中、外伤、胶质瘤等,手术造成的面孔失认证较罕见。现报道1例面孔失认证如下。1病例女,49岁,右利手,因“脑血

期刊

面孔失认症四肢肌肌张力MRI颅脑手术后神经心理学

太原市清洁能源利用现状及促进对策初探

通过分析太原市清洁能源推广利用过程中存在的一系列问题．借鉴国内外一些城市在使用清洁能源及技术方面积累的成功经验．进一步提高清洁能源的使用率和改善空气环境质量。

期刊

清洁能源环境质量太原市

层次分析法在安全检查表中的运用

1概述安全检查表（Safety Check List，简称SCL）是进行安全检查，发现潜在危险，督促各项安全法规、制度、标准实施的一个较为有效的工具，是安全系统工程中最基础也是最广泛使用的一种

期刊