论文部分内容阅读
随着高通量技术的迅速发展,各种类型的生物学研究海量数据产生,生物信息学与计算生物学也不断发展相应的理论和技术以剖析这些数据蕴含的信息。然而理解和解释复杂的生命现象仍然还是一个难题。生命活动的过程及参与其中的因素是一个复杂的网络系统。研究生物学网络(Biological Networks)是理解复杂生命活动的一个关键。目前越来越多的与复杂性状相关的候选基因或候选生物标记正通过全基因组关联分析(Genome-Wide Association Studies,GWAS)等手段挖掘出来,但是GWAS获得的结果只能初步揭示可能的显著效应SNP与相关基因,后续仍有优先排序(Prioritizing)、验证(Validating)等大量工作。我们试图综合现有的生物学网络信息,建立一个统一各类型数据的高效、便捷、可靠、可拓展的可视化基因网络搜索引擎,帮助对GWAS等统计分析结果的深入挖掘。以此,我们构建了一个整合多种生物网络信息,同时具有存储、搜索、可视化三种功能的基因网络数据库服务平台BiopubInfo。我们以基因、蛋白质、表型等生物学概念作为网络中的节点,以蛋白质互作、基因调控、基因表型相关、生物学通路关系等作为网络中的线,我们搜集下载了大量生物学的各类概念数据和关系数据,并做了一系列格式标准化和关系分值标准化的工作,在这一过程中摸索出整合各类生物学数据的方法和关系类型的分类评分标准。生物学网络数据的复杂性和海量性,对搜索引擎平台的存储、计算性能和稳定性都提出了巨大的挑战。我们对平台的硬件系统、操作系统、搜索引擎服务框架和用户交互界面都进行了一系列的调整优化,建立了一个稳定可靠、快速响应、用户友好的系统。 这一平台建立后,我们可以高效地利用多维度的基因网络对全基因组关联分析检测到的候选基因进行优先排序,验证,以及深度生物信息挖掘。我们分别对二型糖尿病和尼古丁依赖数据进行了全基因组关联分析,并利用BiopubInfo这一平台对鉴定的候选基因进行后续分析。二型糖尿病是一种典型的复杂疾病,对人体的健康和寿命有很大的影响。对二型糖尿病的基因调控和生物代谢过程的深入研究,能够对预防和治疗二型糖尿病发挥积极的作用。我们利用GMDR-GPU程序分析了WTCCC的二型糖尿病数据,获取了一到五维的二型糖尿病关联SNPs。对这些SNPs分析后发现六个候选基因。进一步对这六个候选基因进行生物学网络信息分析,发现其中三个基因已有研究报道与二型糖尿病及其相关性状有关联,其余的三个基因为新发现的二型糖尿病相关基因,它们与这三个基因有大量的生物学关联,为验证统计分析结果提供了佐证,也从另一个角度解释了为何只能在多维的SNP分析中才找到这三个基因。尼古丁是成瘾性非常高的一种毒品,依赖尼古丁的人群戒烟有很大的困难,尼古丁依赖的程度也受基因和环境的影响。我们利用QTXNetwork对来自dbGAP的尼古丁依赖数据进行了全基因组关联分析,我们还用其它四种毒品的成瘾数据分别对尼古丁依赖做了条件定位分析。我们把条件分析和非条件分析得到的三组基因分别进行了整合生物网络信息的分析,观察到了三种具有明显差异的网络模式,因而在一定程度上揭示了条件分析的有效性和必要性。我们也从网络图中找到一些证据,可解释为何有些基因在互作中才表现出效应。通过对这两项实例分析,说明了我们开发的基因网络搜索平台可为GWAS领域的后续分析和结果验证提供帮助。