基于MapReduce的全基因组关联分析技术研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:ldw521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的不断推进和发展,全基因组SNP(Single Nuleotide Polymorphism,单核苷酸多态性)数据已经被生物学家检测的越来越详尽,进而给全基因组关联分析技术带来了新的挑战。在全基因组范围不同染色体上分布着成千上万的SNP位点,不同个体在这些位点上的差异是人类表现出不同表型的根本原因。进行全基因组关联分析,发现导致人类不同表型的SNP位点可以对疾病的预防和治疗等应用领域提供强有力的支持。选择有意义的SNP位点与传统特征选择的本质相同,但是利用传统的特征选择方法对全基因组进行SNP位点选择存在着很多问题。一方面,传统的特征选择方法如果不利用机器学习只能选择单位点SNP特征和两位点SNP交互特征,对于多位点之间存在交互的特征却无能为力,但是这对于SNP数据来说是不可忽视的。另一方面,基于机器学习的特征选择方法虽然可以选择多位点之间存在交互的特征,但是面对样本少维数高的数据,往往会出现“维数灾难”的现象。基于现有特征选择方法存在的诸多问题,结合全基因组SNP数据的特点,本文为解决全基因组关联分析中SNP位点选择问题提出一个新的框架。该框架将要解决的问题分为四个步骤。第一步首先利用序列挖掘中极大公共子序列的思想进行关联区.域划分,将原始高维的SNP特征序列划分成若干个维数较低的关联区域。第二步利用最小独立支配集的思想选择一部分关联区域,该部分关联区域能够多样性覆盖第一步得到的关联区域。第三步对第二步得出的关联区域进行无关特征约简,在考虑特征之间存在交互的前提下,本文基于强相关特征定义提出一种近似的强相关特征度量方法:一致性贡献率,并设计算法将非强相关的特征从关联区域中删除。第四步对第三步得到的相关特征子集进行高阶非冗余交互特征子集选择,现有的高阶非冗余交互特征子集选择方法NIFS不能直接应用在带类标签的数据,并且只能应对特征值是二值的情况,本文将对其进行改进和一般化。最后,本文将提出的解决方案在MapReduce框架下并行化实现,最大化利用集群的力量来减少算法的运行时间。最后通过实验分析表明,本文提出的解决方案实现了在全基因组中进行高阶非冗余交互SNP的发现问题,在糖尿病致病位点选择问题以及人群分类问题上所表现出的性能良好。
其他文献
膜生物反应器(MBR)由于具有出水水质好、设备占地面积小、处理效率高等诸多优点,被广泛应用在污水处理和回用领域,但是膜污染导致的通量衰减、运行成本增加等问题却严重限制了MBR更大规模的应用。通过投加活性炭等吸附材料可改善MBR中混合液特性继而有效延缓膜污染,但现有吸附材料大都为非选择性差,使得吸附效率大大降低,运行和维护成本也相应较高。纳米技术和表面分子印迹技术的发展,使得针对生物大分子的分子印迹
随着经济的高速增长,人类对能源的需求也急剧增加,由此所带来的环境污染、生态破坏等负面问题也日益凸显,因而开发新型能源和新型能源存储设备迫在眉睫。目前在能源存储设备研究中,超级电容器因具有高功率密度、快速充电/放电能力、长循环寿命等优点而受到广泛研究。根据超级电容器的工作原理,电极材料决定电容器的电化学性能,因而制备性能优异的电极材料具有重要意义。导电聚合物作为一种优异的超级电容器电极材料,已得到了
随着社会的进步以及科学技术的发展,在经济全球化这样一个时代背景下,企业所处的外部环境日新月异。21世纪的经济形态是一种不断发展创新的知识型经济形态。一个企业若想要在
近年来,我国股票市场上出现了许多上市公司纷纷变更股票简称的现象。根据传统的金融学理论,排除因主营业务变更、重大资产重组等原因所导致的简称变更情况,股票简称变更作为
首先介绍了Morrey-Herz空间、变指数Morrey空间、变指数Herz空间的基本定义及相关的一些性质,以及分数次积分算子及其交换子的概念.然后利用各函数空间的特征,基于在Lebesgue
《流沙》(Quicksand)和《越界》(Passing)是美国哈莱姆文艺复兴时期著名黑人女性作家内拉·拉森(NellaLarsen)的两部代表作。本文从身份构建理论切入,探讨拉森小说中黑白混血
大王庄油田留70断块经过40余年的勘探开发,其地质储量采出程度仅为13.5%,表现出油层动用程度差、采油速度低、挖潜难度大。在开发过程中发现目的层位砂体的空间展布特征及砂体叠置关系认识不清是制约油田开采低效的主要因素,因此开展研究区沉积相、沉积微相研究以及砂体接触关系的评价对油田后续制定调整开发方案具有现实意义。本次研究以高分辨率层序地层学研究为指导,在地层对比过程中兼顾考虑砂体叠置、侧向沉积相变
随着经济发展和技术提升、旅游业的兴起,出现越来越多的大跨人行桥。其结构跨度大且刚度低,人致振动较为明显,人桥相互作用比较突出,因此对其进行深入研究有较大意义。同时,人群的行走是十分复杂的,每个行人都会对周围的环境进行判断,并且做出反应。基于Monte-Carlo方法,从微观方面进行人群移动研究,会更接近实际情况。本文主要进行了以下工作:(1)对比移动力模型和质量-弹簧-阻尼模型的特点,分别推导出两
随着基因测序技术的发展,人类每天可以获得大量的生物序列数据。生物信息学中的一个重要课题是对序列片段表现出的模式特征进行识别,通过比对和分析,挖掘隐藏在海量序列数据
随着科学水平的提升,“5G通信”、“工业4.0”和“物联网”等新技术的提出和实施,数据信息量也随之增多。大数据时代的来临,带来的更多是对数据处理的问题,如何利用海量的数据去更好的服务人类是一个新的课题。近年来,深度学习逐渐崭露头角。深度学习是人工智能的一个分支,主要应用在基于大数据对复杂问题求解与分类问题上。深度学习是机器学习中一种基于对数据进行表征学习的方法,深度学习的优点是用非监督式或半监督式