基因网络信息搜索引擎的构建、优化与应用

来源 :浙江大学 | 被引量 : 1次 | 上传用户:mikelee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量技术的迅速发展,各种类型的生物学研究海量数据产生,生物信息学与计算生物学也不断发展相应的理论和技术以剖析这些数据蕴含的信息。然而理解和解释复杂的生命现象仍然还是一个难题。生命活动的过程及参与其中的因素是一个复杂的网络系统。研究生物学网络(Biological Networks)是理解复杂生命活动的一个关键。目前越来越多的与复杂性状相关的候选基因或候选生物标记正通过全基因组关联分析(Genome-Wide Association Studies,GWAS)等手段挖掘出来,但是GWAS获得的结果只能初步揭示可能的显著效应SNP与相关基因,后续仍有优先排序(Prioritizing)、验证(Validating)等大量工作。我们试图综合现有的生物学网络信息,建立一个统一各类型数据的高效、便捷、可靠、可拓展的可视化基因网络搜索引擎,帮助对GWAS等统计分析结果的深入挖掘。以此,我们构建了一个整合多种生物网络信息,同时具有存储、搜索、可视化三种功能的基因网络数据库服务平台BiopubInfo。我们以基因、蛋白质、表型等生物学概念作为网络中的节点,以蛋白质互作、基因调控、基因表型相关、生物学通路关系等作为网络中的线,我们搜集下载了大量生物学的各类概念数据和关系数据,并做了一系列格式标准化和关系分值标准化的工作,在这一过程中摸索出整合各类生物学数据的方法和关系类型的分类评分标准。生物学网络数据的复杂性和海量性,对搜索引擎平台的存储、计算性能和稳定性都提出了巨大的挑战。我们对平台的硬件系统、操作系统、搜索引擎服务框架和用户交互界面都进行了一系列的调整优化,建立了一个稳定可靠、快速响应、用户友好的系统。  这一平台建立后,我们可以高效地利用多维度的基因网络对全基因组关联分析检测到的候选基因进行优先排序,验证,以及深度生物信息挖掘。我们分别对二型糖尿病和尼古丁依赖数据进行了全基因组关联分析,并利用BiopubInfo这一平台对鉴定的候选基因进行后续分析。二型糖尿病是一种典型的复杂疾病,对人体的健康和寿命有很大的影响。对二型糖尿病的基因调控和生物代谢过程的深入研究,能够对预防和治疗二型糖尿病发挥积极的作用。我们利用GMDR-GPU程序分析了WTCCC的二型糖尿病数据,获取了一到五维的二型糖尿病关联SNPs。对这些SNPs分析后发现六个候选基因。进一步对这六个候选基因进行生物学网络信息分析,发现其中三个基因已有研究报道与二型糖尿病及其相关性状有关联,其余的三个基因为新发现的二型糖尿病相关基因,它们与这三个基因有大量的生物学关联,为验证统计分析结果提供了佐证,也从另一个角度解释了为何只能在多维的SNP分析中才找到这三个基因。尼古丁是成瘾性非常高的一种毒品,依赖尼古丁的人群戒烟有很大的困难,尼古丁依赖的程度也受基因和环境的影响。我们利用QTXNetwork对来自dbGAP的尼古丁依赖数据进行了全基因组关联分析,我们还用其它四种毒品的成瘾数据分别对尼古丁依赖做了条件定位分析。我们把条件分析和非条件分析得到的三组基因分别进行了整合生物网络信息的分析,观察到了三种具有明显差异的网络模式,因而在一定程度上揭示了条件分析的有效性和必要性。我们也从网络图中找到一些证据,可解释为何有些基因在互作中才表现出效应。通过对这两项实例分析,说明了我们开发的基因网络搜索平台可为GWAS领域的后续分析和结果验证提供帮助。
其他文献
我国如今的大学成了一种巨型社会组织,这就不是一个单纯的学术优异者可以驾驭的。而且,现代大学领导越来越注重专业化或职业化。  笔者以为,两位年富力强的顶级科学家和工程师由学术任职转为行政任职,尽管职级提高了,但未必是好事。众所周知,我国大学行政事务繁杂,大学领导往往应接不暇,深陷其中后,行政与学术完全不能兼顾。有的领导为了学术行政两不误,五加二、白加黑地工作,将全部时间和精力投入进去,身心俱疲,尚且
2016年国家提出的导游自由执业改革对导游的职业能力有了新的要求。导游专业开设的课程也应跟随政策和服务环境的变化而变化。为了有效地提升学生的能力,教师在教学时应将翻
棉花是我国重要的经济作物,在国计民生中处于重要地位。棉籽是棉花生产中的主要副产品,全国每年产量达1000万吨以上,年产棉籽饼粕达600万吨以上。由于棉籽中抗营养因子植酸的存在,大量的棉籽营养物质未能被充分的综合利用,特别是影响了棉籽饼粕作为动物饲料的营养价值。实践表明,选育低植酸棉花新品种是解决该问题最为有效的途径,而筛选出低植酸棉花种质资源是新品种选育的基础。目前,植酸含量的测定方法有滴定法、分
本文选取黄淮海麦区目前大面积种植的7个冬小麦品种作为研究对象,采用大田试验和桶栽试验相结合的研究方法,系统研究了这些冬小麦主栽品种的耗水特性、农艺性状和光合特性,以及抗氧化酶系统和光合相关酶对不同水分处理的响应特性。试验于2012年至2014年两个生长季在河南省焦作市广利灌区灌溉试验站进行,主要研究结果如下:(1)周麦22、矮抗58、洛旱7号和济麦22在适宜供水条件下的产量最高,水分利用效率也最高