基于机器学习方法和基因型数据的高血压风险预测

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:f360358188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高血压是常见的慢性病之一,是一种基因与环境共同作用的多基因遗传疾病,也是心血管疾病的重大风险因素之一。近些年来,全基因组关联分析(Genome-wide Association Study,GWAS)在研究基因与疾病的关联方面,取得巨大成就。截止到2020年3月,GWAS已经发现与各种疾病或性状相关的单核苷酸多态性(Single Nucleotide Polymorphism,SNP)位点超过12万个。随着与高血压有关的SNPs的发现,研究者可以从基因层面上探究遗传因素对高血压疾病的影响。近几年来,机器学习中使用数据驱动的模型和学习算法成为图像处理、自然语言处理和目标检测等领域的研究热点,也有很多学者将机器学习方法运用到医学问题中,例如医学影像的诊断。本论文使用目前GWAS发现的与血压调控有关的SNPs,以机器学习方法为基础,尝试对高血压疾病风险进行预测。预测包括对高血压患病状态的预测和血压值的预测,其中血压值包括收缩压(Systolic Blood Pressure,SBP)、舒张压(Diastolic Blood Pressure,DBP)和脉压差(Pulse Pressure,PP)。采用的机器学习方法包括基于前馈全连接网络的人工神经网络(Artificial Neural Network,ANN)和Light GBM(Light Gradient Boosting Machine)方法。ANN在大样本问题上优于一般机器学习方法,Light GBM能为每个输入的特征提供重要性评分,从而识别出对高血压和血压值预测能力较强的SNPs,为探究基因之间的交互作用提供线索。本论文使用的数据来自UK biobank,使用的数据样本量是214,867,预测变量分为三大类:(1)年龄、性别、身高体重指数(Body Mass Index,BMI)三个影响高血压的常见因素;(2)与心血管、肾和血球计数有关22个生物标记物;(3)与血压调控有关的602个SNP位点。本论文主要的工作和结果如下:在使用所有预测变量和50个节点的单隐藏层ANN的高血压风险预测模型中,高血压患病状态预测模型的准确率为0.8392,AUC(Area Under Curve)值0.9128;预测血压值解释了SBP、DBP和PP血压值方差的26.75%、23.93%和24.36%。通过使用不同类别预测变量进行预测并对结果进行比较,我们发现各类预测变量对结果的影响基本成加性关系。在单隐藏层单节点ANN中,只加入年龄、性别、BMI这三个预测变量,高血压患病状态预测模型的准确率为0.7751,对SBP、DBP和PP血压值方差的解释分别为16.06%、12.74%和17.61%。SNP的加入使准确率增加了0.0268,对SBP、DBP和PP血压值方差的解释分别增加了2.99%、3.20%和3.14%。生物标记物的加入使准确率增加了0.0453,对SBP、DBP和PP血压值方差的解释分别增加了7.31%、7.78%和4.57%。这表明SNP数据的加入可以提高模型的预测能力,但是预测能力远远低于性别、年龄、BMI等影响高血压的常见因素,也低于与心血管等有关的生物标记物。SNP和生物标记物的加入使准确率增加了0.061,对SBP、DBP和PP血压值方差的解释分别增加了9.42%、11.16%和7.50%。多隐藏层ANN的结果和单隐藏层ANN的结果基本相同,这说明SNP-SNP交互作用以及SNP-生物标记物交互作用对高血压和血压值的预测能力非常小。基于Light GBM模型的结果与基于ANN的结果相近。使用所有预测变量,基于Light GBM的高血压患病状态预测的准确率为0.8349,AUC值0.9148;预测血压值分别解释了SBP、DBP和PP血压值方差的27.17%、23.96%和25.83%。根据Light GBM对预测变量的重要性排序,SNP对于高血压和血压值的预测重要性也明显低于年龄、BMI和生物标记物。另外,在所有SNPs中,排名整体比较靠前的有5个,分别为:11643209、rs4385883、rs2521501、10787517和rs592373。
其他文献
2016年5月1日,我国全面“营改增”的时代到来了,建筑业、房地产业、金融业、生活服务业四大行业成为了最后一批纳入增值税范围的行业。北京TL建筑公司作为本次税制改革的一员,企业税负控制受到了重大挑战,公司自2016年“营改增”之后连续3年税负都在8%左右,税负翻倍增长,严重影响企业的发展。如何降低税负,是北京TL建筑公司迫切需要解决的问题。本文以北京TL建筑公司为研究对象,首先对研究的背景、国内外
在坡体滑移中水是其主要影响因素,因此在边坡治理中,对水的疏排就显得格外重要。在工程治理中可利用地下水渗流数值模拟的相关软件来对坡体治理中水的疏排进行模拟分析,以期能了解坡体中地下水的渗流场变化与治理工程的排水效果。本文在基于四川省阿坝州茂县富顺乡团结村岷江电化有限公司厂区西面边坡的勘察报告、现场测量、理论分析、经验取值、试验数据的基础上。借用Modflow软件为研究工具,以试验方法为手段,从数值模
电力是当今最常用的能源之一,在大多数领域得到了广泛的应用。其在发电、输电、配电、用电各个环节通过电能计量装置对电能进行计算,但由于大量的电力电子元件的接入,使得谐波问题严重,而谐波也会产生电能,就会对电能计量受到影响,因而对电能的准确计量就显得尤为重要。本文针对电力系统的谐波问题,对其进行分析。首先通过大量的阅读国内外文献。了解了电子式电能表的工作原理和电能的计量方法,在此基础上,提出了一种改进的
地理标志被认为是对原产地产品质量的认证,它作为集体证明商标,受法律保护。农产品质量具有典型的内隐性,农产品想要品牌化发展,申请地理标志是十分有效的途径,基于此,地方政
随着城镇化进程的加快,城市的人口快速增长,各种公共场所活动日益增多,这些场所具有人群流动性大、高度聚集等特征。若活动期间,公共场所发生不确定的突发事件,例如人员摔倒、火灾等情况,容易造成人群拥挤,给人群快速疏散带来安全隐患。研究公共场所的人群密度图中的人群密度特征,确定高密度人群位置,设计人群安全疏散路线,对于人群快速疏散,保障生命安全具有重要意义。针对如何更精确地获取图片中不同远近的人群密度图,
《焦点访谈》自创办以来,其对自己的定位就是舆论监督。它通过报道一些社会热点问题,揭露其出现的原因,并提出解决方法,受到了人们的欢迎。但是《焦点访谈》栏目在发展过程出现了一些问题,如舆论监督内容重复性高,硬监督比重越来越少,舆论监督内容公共性不足,舆论监督热点事件与社会热点事件相差甚远等等。这都值得我们去进行深入的探究。本文先对十八大以来《焦点访谈》栏目进行深刻分析,然后对十八大以来《焦点访谈》所面
随着电力合作在“一带一路”沿线国家的不断升温,电力工业已成为能源行业拓展业务的重要区域。为了保证电力能源供应的连续和稳定,实现电力调度精确化和运营安全经济化,针对电力负荷预测精度不高的问题,本文运用混沌动力学理论,分析了一种具有隐藏吸引子结构的三维jerk混沌系统,并运用混沌时间序列分析理论以及径向基函数(Radial Basis Function,RBF)神经网络预测理论提出了一种混沌时间序列的
运输是雏鸡破壳后经孵化场到养殖场的必经环节,运输应激会对雏鸡的生长及生产性能产生极大的影响,造成畜禽养殖业的损失。肝脏作为体内主要的代谢器官,在运输应激中的反应较为明显。热休克蛋白可以在应激过程快速反应,起到保护作用。黄芪多糖(APS)是黄芪的提取物,有抗应激作用,但是其拮抗运输应激致雏鸡肝脏损伤,尤其是热休克蛋白反应的效果和机制尚不明确。本研究以雏鸡为实验对象,采用模拟运输的方法,用APS滴口预
脂筏是细胞膜上脂质高度有序的膜结构域(<200 nm),其富含胆固醇和鞘脂类物质。脂筏选择性地招募特定类型的脂质和蛋白,从而与多种生理功能如免疫信号传导、宿主-病原体相互作用、癌症的发生与发展和心血管疾病等密切相关。因此,实现脂筏原位成像和长时间跟踪有助于进一步加深对脂筏选择性招募机制及其生理功能的理解。目前的脂筏成像技术主要依赖于荧光成像,但这些方法都是将荧光分子标记在特异性识别脂筏的探针
克拉霉素(clarithromycin)是一种半合成大环内酯类抗生素,具有广谱抗菌活性,能够杀死大部分细菌,对部分支原体也有一定的抑制作用。临床上克拉霉素广泛应用于各种细菌感染,如上、下呼吸道感染,皮肤、软组织感染以及生殖泌尿系统感染等,特别是在治疗儿童时,表现出良好的治疗效果。但克拉霉素口服生物利用度较低,口味极苦,而注射给药对局部刺激性很大。本研究旨在提高本品口服制剂生物利用度和改善顺应性,主