填补基因型数据管理软件的开发与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:hhkkpump
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在遗传学中,全基因组关联研究(Genome-wide association study,GWAS)是重要的研究方法,GWAS的目的是发现人类可遗传变异与疾病或性状之间的关联,这里的可遗传变异通常是指单核苷酸多态性(Single nucleotide polymorphism,SNP)。基因型填补(Genotype imputation)是GWAS中一项非常重要的技术,它能增加填补数据中SNP的密度,扩充数据集,减少信息丢失。使用相同的参考模板对基因型数据进行填补,可以使不同研究的基因型数据具有相同的SNP位点,进而开展多研究结果的荟萃分析。基因型填补所得到的数据通常格式多样且数据文件庞大,需要进行预处理和质量控制以便用于分析。同时,各种GWAS分析软件所需数据格式也不同,因此需要使用相应的数据管理软件对填补基因型数据进行格式转换、数据处理以及质量控制。已有的这类软件的功能大都不全面,甚至部分重要功能缺失,有些执行效率低。因此迫切需要一个支持主要填补基因型数据格式的功能丰富、运行高效的填补基因型数据管理软件。本文开发的填补基因型数据管理软件是在Linux操作系统下基于C++实现的一款软件。软件的功能基于GWAS中的实际需求,在对各种常用格式的填补基因型数据进行了研究、对相关质量控制参数进行了分析后确定了需要实现的功能。本文分析了三种常用的填补基因型数据格式(Impute、Minimac和VCF)的组成文件和各文件的具体格式和内容,阐述了格式转换、数据处理以及质量控制各功能的实现思路与具体实现方案。首先,从数据读入、写出入手,实现了格式转换功能。在对数据进行格式转换时采用一种新的即时处理的算法,即将小部分数据读入缓冲区,处理后写入硬盘,再读入和处理下一部分数据。此种实现方式区别于fc GENE等软件将数据集全部读入内存再转换的方法,在保证较高效率的同时可以对大型数据集进行转换,几乎不占用系统内存空间。接下来,实现了对数据集的多种处理功能,其中包括通过SNP名和样本名两种方式对数据集进行提取、合并或删除。数据处理功能实现的难点在于进行数据集合并时需要交叉对比SNP名或样本名,这一操作通常需要将数据全部读入内存或反复读取硬盘数据,是大多数已有软件的效率瓶颈。本文采用建立索引(Index)的方式,先在内存对数据中SNP或样本对应的文件存储位置建立索引,再根据索引进行数据比对和输出。这样在极大地减少内存占用的同时也极大地降低了硬盘的读取次数。同时在数据集匹配功能中使用基于map数据结构的字符串匹配算法,将算法复杂度由O(n~2)降低为O(n),极大提高了匹配效率。最后,本文实现了GWAS常用的质量控制功能,包括对各格式数据的质量指标进行计算并通过给定指标阈值筛选SNP和样本。为了提高硬盘空间的使用效率,填补基因型数据大都使用gz压缩格式存储。本文使用zlib库,支持gz压缩格式的直接读写功能,使得上述的格式转换、数据处理以及质量控制功能均可直接读入或写出各种格式数据集的gz压缩格式。在实现上述功能后,本文先用较小的数据集测试各功能的准确性,再用大型数据集测试软件运行的稳定性及运行效率。同时对比fc GENE,GTOOL,Dosage Convertor,QCTOOL等同类软件,对各功能模块的实现算法不断地进行优化,降低时间复杂度,提高软件的运行效率,最终达到对填补基因型数据管理软件的格式多样、功能全面、运行高效的设计目标。
其他文献
在当今互联网高速发展的时代,现代信息技术和多媒体技术已经成为我们生活和工作中的一部分,不仅对我们的生活有很大影响,同时也影响着教育。新课改明确要求英语课程应逐渐与信息技术融合,网络技术的发展也为体验式教学提供了良好的基础,在英语教学中应用体验式教学是一种非常好的方式,教师在信息技术环境下多维度设计教学情境让学生体验到身临其境,使学生对英语产生浓厚的兴趣,发挥学生主观能动性,引导学生感知和领悟知识,
现如今,科技的不断进步导致了数据量的极速增长,因此,提供了更高存储效率以及数据可靠性的分布式存储系统(Distributed Storage System,DSS)得到了广泛的应用。同时,为了能够进一步优化DSS的修复效率,针对使用较少冗余实现数据存储的纠删码技术进行了相关的研究。其中,由于局部可修复码(Locally Repairable Code,LRC)能通过访问错误节点所在修复集合中,至多
背景癌症严重危害人类健康,目前仍然是一个难以攻克的医学难关。肿瘤微环境(TME)与肿瘤细胞之间相互影响,对肿瘤的发生,生长和转移起着至关重要的作用。基于肿瘤微环境的实体瘤的高通透性和滞留效应(EPR效应)为肿瘤的靶向治疗提供了一种新的策略。目前临床上主要通过手术摘除、化学药物治疗和放射治疗等方式治疗癌症。而最常用的治疗手段之一化学药物治疗所使用的的化学药物在临床上大多数为注射剂,如环磷酰胺、多西紫
随着无人驾驶、车路协同等技术发展,智能网联车辆需要更多的路侧边缘计算能力进行环境感知和态势认知,以保障驾驶安全,提高交通效率,满足更丰富的车联网服务需求。由于车辆的大范围快速移动特性,智能车辆在使用车联网资源过程中,将面临车联网服务的迁移问题和车辆计算任务的卸载问题,进而导致车联网通信资源和边缘计算资源的争用。由于车辆的移动性,车联网服务需要在边缘计算单元之间迁移来使车辆与提供服务的边缘计算单元以
随着大众旅游时代的来临以及全域旅游模式的推进,交通运输对旅游业的带动作用越发凸显,更加高品质的交通供给成为旅游业发展的需求,交通与旅游的融合发展已然成为旅游业转型发展的新方向。论文旨在通过分析交通网络结构演变和旅游空间结构演化规律,研究旅游系统与交通系统的耦合协调关系,进而提出旅游交通协同发展建议。通过建立结构方程模型,分析了旅游者属性、旅游交通网络和旅游交通行为等因素,发现旅游者较为关注旅游出行
在我国基础教育阶段,“数困生”(数学学习困难的学生)问题是非常普遍的,而“数困生”最大的群体则为初中“数困生”。因此,在教学和教育过程中,教师如何帮助他们进行数学学习和转化是当前面临的重要问题。本文以学者的研究作为基础,结合自己的理解和分析,对初中“数困生”进行界定。对“数困生”在数学学习中的问题、原因以及对策进行了分析和研究,并对两个被试者进行了分析,针对不同的特征得出有针对性的转化策略。本文主
股权分置改革的完成、机构投资者入市、混合所有制改革等因素都在客观上促进了我国企业由一股独大逐步走向股权分散。股权分散为敌意收购创造了契机,近年来,我国资本市场爆发了一轮又一轮的控制权争夺战,吸引了社会大众的关注和讨论。爆发于2017年的爱建集团控制权争夺战具有典型性,值得深入研究与探讨。基于现有的理论研究成果与爱建集团控制权争夺战具体情况,本文以“防范控制权转移”作为核心研究内容,遵循分析问题解决
随着我国法治建设发展,更多人通过诉讼途径寻求救济,当事人为实现诉讼请求可能会使用不符合法律规定的手段收集证据,为尽量还原案件事实、实现实体正义,应避免笼统的将非法证据排除在诉讼环节之外,充分发挥非法证据排除规则的重要作用。文章通过案例研究与理论研究相结合的方式,梳理我国民事非法证据排除规则立法过程,分析法官在实践中面临的困境,从立法层面以及实践层面分析造成非法证据排除规则适用困难的成因。目前,我国
利用GIM3.439紫红曲菌在一定的条件下对低盐半干鲩鱼进行发酵,得出红曲菌发酵半干鲩鱼的最佳生产工艺,初步分析了红曲菌发酵对半干鲩鱼挥发性物质的影响,探讨了红曲菌发酵对半干鲩鱼滋味的影响。(1)以鲩鱼为原料,以氨基态氮含量和产品感官为评价指标,对发酵过程中红曲菌发酵剂接种量、发酵温度和发酵时间三个因素进行单因素分析及正交实验分析,得出红曲菌发酵半干鲩鱼最佳生产工艺。最终试验表明红曲菌发酵剂接种量
中国国民党党史史料编纂委员会(以下简称党史会),是直属于国民党中央的官方修史机构。党史会成立于1930年(民国十九年),于1949年(民国三十八年)随着国民党的战败迁入台湾。在大陆的19年间,党史会对国民党党史史料搜集和整理方面做出了巨大的贡献,并出版了许多国民党党史出版物,为后世的民国史研究提供了重要条件。但现有的研究论著,对于大陆时期的党史会研究尚嫌薄弱,所以本文将从党史会的变迁,组织运行及党