SNP数据仿真及关联分析算法的比较

来源 :西安电子科技大学 | 被引量 : 1次 | 上传用户:wo402179168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单核苷酸多态性(SingleNucleotidePolymorphism)是指在基因组水平上由单个核苷酸的变异引起的一种DNA序列多态性,它改变了基因原来的结构和连锁率,增加了个体的患病率。目前已有很多检测SNP与复杂疾病关联关系的算法,但缺少大量的具有先验知识的SNP数据来验证这些检测算法的有效性。  本文在了解SNP真实数据的MAF和LD特性的基础上,建立了一个SNP数据仿真系统,该系统仿真的SNP数据具有MAF(MinorAlleleFrequency)和LD(LinkageDisequilibrium)信息,且人为的嵌入了已知的疾病模型以供关联分析算法来查找,本文从三方面通过八组实验数据对SNP仿真数据进行了有效性验证,包括互信息验证、经典关联分析算法MDR验证和haploview软件验证;除了构建SNP数据仿真系统,本文还对几种经典的关联性分析算法的性能进行了简单的比较,有BOOST算法,AntEpiSeeker算法,SNPRuler算法,这些算法性能的比较是基于上述仿真系统产生的七组SNP仿真数据,通过三组实验阐述了产生SNP仿真数据时三个重要参数对算法性能的影响,给出了三种算法的性能比较。
其他文献
目前Web信息量剧增,Internet已经成为人们重要的信息来源。当人们浏览网页时,会出现大量的导航条,广告信息,版权信息以及调查问卷等相关信息,这些信息通常并不是人们所要获取
Hadoop是对大规模数据进行分布式处理的软件框架,是一种实现云计算和云存储的分布式计算平台。在不知晓分布式架构的具体细节状况下,用户能开发和运行分布式应用。Hadoop充分利
铁路行车安全监控网络信息系统是保障铁路运输安全的重要技术措施,在目前已实施的一些相关系统中,对于实时监控功能大都采用了C/S模式,以求时效性强且技术成熟、易于实现,但
随着软件及硬件的复制、发布及多媒体数据生成工具的发展,互联网上的音频数据呈跨越式增长,如何鲁棒而又高效的从海量多媒体数据库中搜索用户感兴趣的信息成为近年来亟待解决
人脸识别是人工智能与模式识别的一个重要研究方向,它涉及到图像处理,计算机视觉,模式识别,机器学习等相关的多门学科,它的高可靠性和高稳定性使它广泛应用于信息安全,金融,安全防务
飞机地面空调车温度控制器工作在复杂的外界环境中,外界环境的不确定性和时变性以及工作模型难以确定等因素对温度调节都有影响。应用常规的PID控制方法响应时间慢,抗干扰性
学位
随着大数据时代的到来,面向大数据的存储系统纷纷出现。不断增长的数据量,使得集中式元数据管理系统的负担越来越重,逐渐成为大数据存储的瓶颈。为此,人们提出了多种分布式元
图形处理器(Graphic Processing Unit,GPU)是显卡最重要的组成部分。GPU的出现有效降低显卡对CPU的依赖,同时有效提高了图形处理,尤其是矩阵变换较多的三维图形的处理能力。
大数据时代,互联网每天都会产生大量的数据,利用数据挖掘算法可以从中分析出有价值的数据。在聚类分析方法中,K-means聚类算法是应用最广泛的一种划分方法。该算法简单,且收