论文部分内容阅读
国际千人基因组计划贡献了海量的源于不同国家和不同人群的、包含着大量遗传变异信息的个人基因组数据。生物大数据的产生对科学家提出了新的问题和挑战,即如何有效地利用如此大规模的数据,合理规划数据的传输、分析和存储流程,最终发现隐藏在数据中的知识和规律,已经成为非常紧迫的问题。目前基因组学研究已经从原有单一的、静态的人类基因组向更加复杂的、动态的个体化基因组转型。然而,基因组学研究中作为指导标准存在的,广泛用于比对过程中的人类基因组参考序列,仅是基于有限的人类个体全基因组测序后的结果。这个不包含任何遗传变异信息的静态基因组显然不足以用于高度复杂的基因组学、转录组学、表观基因组学以及全基因组关联分析等研究。本课题基于国际千人基因组计划中来自于两个中国人群体的194个全基因组序列数据,构建了虚拟中国人动态基因组数据库(VCGDB)。VCGDB提供了一系列动态基因组学信息,共包括3500万个单核苷酸变异位点信息(SNVs)、50万个基因组插入删除片段信息(InDels)、2900万个罕见发生概率的变异位点信息,以及与这些位点和序列片段相关的基因组注释信息。综合这些基因组变异信息,我们构建了一条中国人群体的基因组一致性参考序列,并使用真实的基因组测序数据进行比对,将其与已有的人类基因组参考序列进行比较,结果表明基于动态基因组构建的中国人基因组参考序列更能体现中国人群体的基因组特征。VCGDB是“虚拟”的数据库。因为虚拟中国人基因组并不属于和代表任何一个真实存在的中国人个体,而是源于对几百个中国人个体的TB级大规模数据进行综合分析的结果,也因此可以描述中国人群体的遗传变异特性和各个位点上的碱基偏好性。VCGDB同时又是“动态”的数据库。我们从样本和人群等多个水平,使用信息熵等方法来分析和评估中国人个体之间以及人群之间各个单核苷酸变异位点、插入删除信息、结构变异信息的动态变化水平和发生率。VCGDB将动态变异与个体特征以及基因组注释信息,比如相关的基因信息、基因组重复片段信息和全基因组关联临床特征信息等进行了有机地整合,汇总得到与中国人群体相关的所有动态信息。VCGDB同时提供高度交互的、友善的、融合多种全新功能的虚拟中国人基因组浏览器(VCGBrowser)。该浏览器支持从网页直接使用或以客户端形式使用,也支持本地跨平台使用,具有高兼容性特性。不论是在单个群体内或是多个群体之间,它提供了一个全方位的视角和一个统一的坐标系,来直接地展示和比较全基因组水平的所有动态变异信息。VCGBrowser具有高度灵活特性,支持对动态基因组进行实时、无极缩放到任意分辨率,从基因组的水平展示某个基因组区域的动态变异分布信息,到位点水平展示各位点的动态变异细节信息。得益于高度结构化和索引优化的虚拟中国人基因组数据库,VCGBrowser支持由浏览器点击触发实时搜索,并返回细节信息。总体上,虚拟中国人基因组数据库实现了对国际千人基因组计划海量数据的高效利用和成功展示,为生物大数据的处理和分析提供了成功案例,并且将在数据持续增长的情况下提供稳定、有效的资源,以求对基因组学以及其他与疾病相关领域,特别是个体化基因组方面的研究有所帮助。