基于变分逻辑回归的全基因组关联分析集成统计方法研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:liu554802016
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全基因组关联分析(Genome-wide association study,GWAS)是一种在人类全基因寻找与疾病相关联变异位点的方法,通过这项研究能更为深入地理解与探寻复杂疾病与性状的遗传机理,从而对疾病更好的预防和治疗。在过去数十年里,研究者们通过GWAS研究已成功识别了多个与人类复杂疾病关联的遗传基因位点,在探寻与人类复杂疾病相关的遗传因素方面取得了巨大成就。全基因组关联分析最初针对个体层面的数据进行,人们发现了一些与疾病显著关联的变异点,并在实验中得到证实,但人们发现有限的个体样本(通常数百数千)相对于上百万的遗传变异点样本显得非常不足,实验发现那些显著的变异点能够解释的疾病的变化比率也极低,很大一部分变化来自那些微弱的不够显著的变异点。为了探测这些效应微弱的变异点和提高疾病风险评估的精度,人们总是尽力获取更大的样本量,这通常需要付出很大成本和代价。与此同时,随着互联网技术的发展,人们也乐意发布关于GWAS的研究成果,这些结果通常是不包含个人信息以及个人层面数据的统计信息.如果将相关疾病发布的统计信息纳入个体层面数据的分析,将有望获得比只分析个人数据的方法获得微弱效应变异位点更高的识别率以及更好的预测精度,目前已经有很多统计方法关注个体数据和群体数据的集成,这些方法通常都基于疾病与变异位点一般线性相关的假设构建统计模型,复杂疾病的二分类变量一定程度违背了线性回归模型的一些假设条件。在处理因变量为二分类变量的情形时,较线性模型而言,Logistic模型的统计特性更好、计算更为方便。发展基于逻辑回归的个体数据和群体数据集成统计分析对现有一般线性的方法是一个很好的发展和补充,如何建立模型和发展快速的求解算法对现有的分析方法提出了挑战,也激励本人进行系统和深入的研究.本论文基于个体样本数据与群体的统计数据来自同一人群的假设,发展了基于逻辑回归的全基因组关联集成统计分析方法,主要分为两个部分,1.提出了基于逻辑回归的两阶段集成分析模型logi P2P(logistic posterior to prior),该方法首先将群体数据获取的变异位点的p-值转化为关联概率(后验信息),再将此信息作为逻辑回归中自变量的先验信息加入.2.提出了基于逻辑回归的统一集成分析模型,将logi P2P两阶段合成统一的体系,该模型将个体数据和群体数据共享的变异点的关联状态作为联系两类数据的纽带。两种模型基于变分EM推断(Vartioanl Expectation-Maximization Inference)发展了高效的算法,充分的模拟实验和实际数据的分析表明,基于逻辑回归的全基因组集成关联分析方法,能够有效的群体数据提供的信息纳入分析之中,比单独分析个体数据的逻辑回归模型在变异点识别和疾病风险预测都有显著的提升。
其他文献
报纸
中国作为人口众多的发展中国家,减少贫困人口一直以来是一个非常艰巨的任务。改革开放以来,我国的经济取得了巨大的发展,与此同时扶贫开发工作也取得了显著的成效。2021年我国脱贫攻坚战取得了全面胜利,现行标准下9899万农村贫困人口全部脱贫,832个贫困县全部摘帽,12.8万个贫困村全部出列,区域性整体贫困得到解决,完成了消除绝对贫困的艰巨任务。我国解决贫困问题的工作重心由消除绝对贫困逐步过渡到改善相对
学位
随着建筑行业的快速发展,工程施工安全成为人们越来越关注的问题。建筑工程安全管理通过应用建筑信息模型(Building Information Modeling,BIM)技术能够实现工程智能化管理,有效降低安全风险发生的概率。基于此,本文以建筑工程安全管理中应用BIM技术的意义为切入点,阐述了工程安全管理中构建BIM模型的要求,并结合具体建筑工程安全管理过程中应用BIM技术的实例,提出安全管理措施,
期刊
新型农业经营主体(新农体)是推动农业现代化,促进农民增收,实现乡村振兴战略的关键载体,为此,党中央国务院出台了一系列金融支持政策。目前,新农体由于自身规模效益、经营管理、风险分担等原因,遭遇到了融资困境,金融支持面临一些新问题尚待破解。本论文着重研究新农体高质量发展中的金融支持路径以及融资模式问题。本文梳理了国内外相关文献,研究表明金融支持新农体高质量发展路径尚不清晰,融资渠道有待畅通。通过厘清基
学位
我国经济发展正在向实现高质量和高效率增长的目标进行推进。但就目前情况来看,我国的金融体系丞需完善,虽然一定程度上充足的资金对经济增长起到了重要的作用,但仅仅依靠资本在“量”上累积是不够的,还需要注重其在“质”上的发展,金融发展的总体增长作用不仅依赖于适度扩张的金融规模,还要额外考虑金融体系中金融效率这一影响因素。只有将资源高效率的配置才能真正地起到对经济增长促进的作用。因此对于研究金融发展对经济增
学位
随着互联网和信息技术的发展,数据在技术革新、产业发展、科学研究等方面成为了重要的资源。从海量的数据中发现潜在有用的信息、知识和科学规律需要建立在高质量的数据集上。然而在现实世界中得到不完备数据集是不可避免的,数据缺失将会导致模型性能损耗。缺失值插补是统计学领域热点的研究方向。当前主流的数据插补方法中,多数针对缺失数据类型为连续型的缺失数据集展开,缺失数据为类别型的插补方法较少。当前经典的类别型缺失
学位
贫困长期存在于人类社会的发展历史中,当前仍然是世界各国面临的严峻挑战之一,受到广泛关注。消除贫困、改善民生、实现共同富裕是社会主义的本质要求。改革开放以来,中国经济不断发展,人民生活水平得到了极大的提升。党的十八届五中全会提出了精准扶贫、精准脱贫的基本方略,到2020年末实现“两不愁、三保障”。到2020年末,我国已实现现行标准下的农村贫困人口全部脱贫,彻底消除绝对贫困,然而相对贫困将依然在社会中
学位
UbD模式的“理解为先”的教学模式,为数学课堂教学中落实“学生发展为本”基本理念提供了实践思路。UbD模式下的学习活动的物质基础、社会基础和心理基础,分别指向学习活动的不同的价值;学习活动的三个阶段(层次),即经验材料的数学组织、数学材料的逻辑化、数学理论的应用,构成了数学学习活动的系统。以“正弦定理”的教学设计为例,展示了其设计缘由、学习活动设计的基本原则与思路、教学片断及学习活动设计的意图等,
期刊
健康险产品具有风险保障,资金周转以及加速市场运转的功能,所以其在人民经济生活中和国民经济中有着至关重要的作用。但产品本身仍存在一些缺点,例如供需不平衡,保障力度不够等。除了上述一些问题以外,在健康险的设计中还存在着其他保险产品同样存在的问题,就是定价的方法。如何对其进行精准的定价,对保险公司来说非常有必要研究构建怎样的健康保险定价模型。目前广义线性模型在车险中的应用极为广泛,所以在进行健康险的定价
学位
我国沪深交易所于2010年3月末正式开展融资融券业务,从此意味着我国结束了长期以来股市单边交易状态。传统的金融理论具有投资者为理性人的假设,当资产有不合理定价时投资者会通过套利等行为使资产回归正常价值,从而市场具有有效性。启动融资融券交易有利于增强市场流动性,投资者情绪可以通过融资融券交易被有效表达,减少投机套利空间、抑制股价波动同时稳定市场。但是融资融券本身具有杠杆效应,市场并非仅存在理性投资者
学位