虚拟中国人动态基因组数据库

来源 :中国科学院北京基因组研究所 | 被引量 : 2次 | 上传用户:mylook1028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
国际千人基因组计划贡献了海量的源于不同国家和不同人群的、包含着大量遗传变异信息的个人基因组数据。生物大数据的产生对科学家提出了新的问题和挑战,即如何有效地利用如此大规模的数据,合理规划数据的传输、分析和存储流程,最终发现隐藏在数据中的知识和规律,已经成为非常紧迫的问题。目前基因组学研究已经从原有单一的、静态的人类基因组向更加复杂的、动态的个体化基因组转型。然而,基因组学研究中作为指导标准存在的,广泛用于比对过程中的人类基因组参考序列,仅是基于有限的人类个体全基因组测序后的结果。这个不包含任何遗传变异信息的静态基因组显然不足以用于高度复杂的基因组学、转录组学、表观基因组学以及全基因组关联分析等研究。本课题基于国际千人基因组计划中来自于两个中国人群体的194个全基因组序列数据,构建了虚拟中国人动态基因组数据库(VCGDB)。VCGDB提供了一系列动态基因组学信息,共包括3500万个单核苷酸变异位点信息(SNVs)、50万个基因组插入删除片段信息(InDels)、2900万个罕见发生概率的变异位点信息,以及与这些位点和序列片段相关的基因组注释信息。综合这些基因组变异信息,我们构建了一条中国人群体的基因组一致性参考序列,并使用真实的基因组测序数据进行比对,将其与已有的人类基因组参考序列进行比较,结果表明基于动态基因组构建的中国人基因组参考序列更能体现中国人群体的基因组特征。VCGDB是“虚拟”的数据库。因为虚拟中国人基因组并不属于和代表任何一个真实存在的中国人个体,而是源于对几百个中国人个体的TB级大规模数据进行综合分析的结果,也因此可以描述中国人群体的遗传变异特性和各个位点上的碱基偏好性。VCGDB同时又是“动态”的数据库。我们从样本和人群等多个水平,使用信息熵等方法来分析和评估中国人个体之间以及人群之间各个单核苷酸变异位点、插入删除信息、结构变异信息的动态变化水平和发生率。VCGDB将动态变异与个体特征以及基因组注释信息,比如相关的基因信息、基因组重复片段信息和全基因组关联临床特征信息等进行了有机地整合,汇总得到与中国人群体相关的所有动态信息。VCGDB同时提供高度交互的、友善的、融合多种全新功能的虚拟中国人基因组浏览器(VCGBrowser)。该浏览器支持从网页直接使用或以客户端形式使用,也支持本地跨平台使用,具有高兼容性特性。不论是在单个群体内或是多个群体之间,它提供了一个全方位的视角和一个统一的坐标系,来直接地展示和比较全基因组水平的所有动态变异信息。VCGBrowser具有高度灵活特性,支持对动态基因组进行实时、无极缩放到任意分辨率,从基因组的水平展示某个基因组区域的动态变异分布信息,到位点水平展示各位点的动态变异细节信息。得益于高度结构化和索引优化的虚拟中国人基因组数据库,VCGBrowser支持由浏览器点击触发实时搜索,并返回细节信息。总体上,虚拟中国人基因组数据库实现了对国际千人基因组计划海量数据的高效利用和成功展示,为生物大数据的处理和分析提供了成功案例,并且将在数据持续增长的情况下提供稳定、有效的资源,以求对基因组学以及其他与疾病相关领域,特别是个体化基因组方面的研究有所帮助。
其他文献
基质细胞衍生因子-1(SDF-1)可招募骨髓间充质干细胞(BMSC)迁移至特定靶位并诱导BMSC 成骨分化和血管内皮祖细胞(EPC)成血管分化,成骨分化与成血管分化紧密偶联.SDF-1与BMSC 联合新
GPS技术具有精度高、速度快、成本低的显著优势,已成为应用广泛、实时性强的全球精密授时、测距、导航、定位系统。用常规的集群通信系统实现GPS定位服务,只能适用于局部范围,无
受语言局限性和公共利益广泛性的影响,物权法没有对公共利益作出明确的界定,但是,为了维护集体土地所有权和私人财产所有权,防止政府在征收征用中对公共利益的滥用,需设置单独的公
科技力量正在成为抗击疫情的新利器,我们需要推进一场全民公共卫生科学普及运动,将利用大数据、互联网所形成的平台协作、智慧服务等机制运用到未来的城市建设中。当前,抗击
期刊
【正】自觉能动性理论,是毛泽东哲学思想的重要组成部分,无论对我国的革命还是建设事业都具有十分重要的指导价值。但是,对这一理论至今存在着一些模糊甚至错误的理解和认识
为减少海湾扇贝加工过程中人工的参与,提出螺旋毛刷辊式清洗海湾扇贝的方法,结合相关清洗机构,针对海湾扇贝的特点对主要功能部件进行了改良和创新设计。采用空心的螺旋毛刷
为进一步解决LPN密码方案密钥空间大的问题,利用信息熵和剩余哈希定理提出了重要的环上背包问题;基于环上背包问题和标签加密技术设计了一个基于Ring-LPN且CCA安全的公钥加密
随着互联网的飞速发展,媒体公众号顺势而生。原本发布在报纸、电视、网站上的新闻,开始在公众号中广泛传播。本文分析媒体公众号的传播特点,解读其在新闻传播中的正面及负面
胶原作为一种结构蛋白广泛存在于动物的皮肤、肌腱以及其它结缔组织中.富含胶原蛋白的组织表现出一些与年龄相关的生理变化,例如,随增龄动脉僵硬度提高,肺和皮肤弹性丧失,眼
期刊
目的:观察枸橼酸西地那非(万艾可)对宫腔粘连(intrauterine adhesion,IUA)分离术后冻融胚胎移植(frozen embryo transfer,FET)患者妊娠结局的影响。方法:选择2017年1—12月在南京医科