基于随机森林的全基因组关联研究

来源 :湖南师范大学 | 被引量 : 2次 | 上传用户:zjqzc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单核苷酸多态性(SNP)是指由单个脱氧核苷酸变异引起的基因序列的多态性,SNP能够帮助定位与疾病相关联的基因,从而解开复杂疾病的遗传病因。随着高通量基因分型技术的高速发展,SNP的数量大到足以覆盖到整个基因组,在全基因组范围内探测关联SNP位点变得可行。全基因组关联研究(GWAS)就是对全基因组范围内的SNP位点进行研究,以期发现某些与复杂疾病相关联的致病基因。然而由于全基因组关联数据超高维、样本小的特性,使得关联SNP的探测具有很高的挑战性。随机森林(RF)是一种先进的机器学习方法,应用于一些复杂疾病的全基因组关联研究。RF在一些规模不大的数据集中具有较好的预测精度,但是其依然存在着在大型数据集中建立精准预测模型的难题。针对上述难题,本文提出了一个基于随机森林的两步骤SNP子集分类的方法——TSRF(Two Steps SNP subset classification method based on Random Forest),应用于GWAS数据集中建立精准的随机森林模型。第一步,对每个SNP位点计算其重要性分数(IS),然后通过Wilcoxon秩和检测对每个SNP计算一个p-值,再设立一个阈值,将原始数据集中p-值高于该阈值的SNP删除,剩余的SNP被认为是一个相关SNP子集;第二步,利用卡方检测(χ2)对相关SNP子集进行统计显著性计算,根据得到的卡方值的高低,再设定某个阈值,将剩下的相关联SNP进一步分入到两个子集中去:高相关与低相关SNP子集。构建RF里的每颗决策树时,在节点分裂进行特征子集抽样时,就只会按比例抽取这两个子集中的SNP,因而最终的预测结果总是只考虑相关的SNP。TSRF方法有效地对全基因关联数据集进行降维,最终生成更精准的随机森林模型,同时降低了泛化误差,还可以避免过拟合。在帕金森病和老年痴呆症真实数据集上我们对TSRF方法进行测试评估,并且将该方法与传统的RF方法以及近年提出的GRRF和WSRF方法进行比较。测试结果表明,当病例-对照的数据对象远少于SNP数量时,TSRF方法的预测精度更高,同时泛化误差更低,是优于这些方法的。最后,通过TSRF方法识别出帕金森病的病例-对照数据集中比较靠前的潜在的关联SNP,为后续的生物学验证实验提供指导作用。
其他文献
面孔失失认认证是一种特殊形式的视觉失认,其常见原因有遗传、卒中、外伤、胶质瘤等,手术造成的面孔失认证较罕见。现报道1例面孔失认证如下。1病例女,49岁,右利手,因“脑血
通过分析太原市清洁能源推广利用过程中存在的一系列问题.借鉴国内外一些城市在使用清洁能源及技术方面积累的成功经验.进一步提高清洁能源的使用率和改善空气环境质量。
1概述安全检查表(Safety Check List,简称SCL)是进行安全检查,发现潜在危险,督促各项安全法规、制度、标准实施的一个较为有效的工具,是安全系统工程中最基础也是最广泛使用的一种
根据近年的资源和统计数据,分析了毕节地区主要农业面源污染的原因和现状,并提出了防治措施。
一、汽车产业的提出产业是国家经济的骨架,产业的兴衰是事关国家盛衰的基本要素。任何产业都有萌芽、成长、扩张、成熟的过程,因此,把握好产业演变的时机,进行有效的产业扩张是走
针对中国城市道路交通的特点及以往交通控制系统的问题和未来发展的需要,提出了适用于中国城市的实时自适应控制与管理系统.
DHS是治疗股骨粗隆间骨折理想的内固定物,特别对老年人早期活动,减少致命性疾病的发生,尤其重要。我院骨科自2000~2003年应用DHS内固定治疗老年股骨粗隆间骨折67例,现报告分析如下
<正> 三、增加新的教研内容在实施新课程的今天,实验本身为教研工作提出了更多的研究任务,实际工作对教研提出了更大的挑战。在推进新课程实验中,除了搞好传统的必要的常规教
毛泽东志存高远、精忠报国,孜孜不倦、勤勉好学,乐观向上、自强不息,一心为公、清正廉洁的人格魅力对当代大学生教育有着重要的启示。
用多弧离子镀技术,在坦克压气机叶轮材料LY12铝合金基体上沉积TiN涂层和TiAlN涂层。用金相显微镜和X射线衍射仪对涂层表面形貌和物相进行了分析。X射线衍射表明TiAlN涂层中的