论文部分内容阅读
传染病是公共卫生安全的严重威胁之一,尤其是近年来新发再发传染病不断出现。尽管病毒性传染病危害严重,细菌性传染病依旧是不可忽视的问题。病原细菌的致病性是由它的毒力因子决定的,研究毒力因子不仅是阐明病原菌致病机制的关键,也是相关传染病防控和干预的重点之一。本实验室于2004年自主构建了国际上首个综合性病原菌毒力因子数据库(VFDB)。最初发布的数据库收集了 24个属100多种重要医学病原菌的毒力因子的组成、结构、功能、致病机理、毒力岛、基因组信息等内容。随后分别于2008年与2012年先后两次更新扩充,进一步引入了比较基因组学数据集,以及不同病原菌同类毒力因子之间的遗传多样性和分子进化关系等重要信息。尽管三次发布的VFDB数据相互关联,但是它们的数据集和用户访问界面都是相对独立的。数据的冗余不利于后续进一步的数据挖掘,界面的不统一也会给用户的访问带来不便。因此,本研究从三个方面对VFDB进行了改进。首先,改进了底层的数据结构,去除了冗余数据,整理生成由已知毒力因子构成的核心数据集和包括所有潜在毒力因子的完整数据集。其次,对核心数据集中的所有毒力相关基因的注释信息进行了审核与精炼,提高了 VFDB数据库的数据质量。最后,使用集成的JavaScript框架ExtJS4.1创建了一个整合的、界面统一的病原菌毒力因子数据分析平台,提供多种在线数据统计分析功能,既减轻了服务器端的压力,又提升了用户体验。本研究工作不仅对VFDB的基础数据进行了整合与优化,去除了冗余,而且对核心数据集中的所有毒力相关基因的注释信息进行了审核与精炼,产生出了适用于大数据快速分析的高质量非冗余毒力因子数据集,并构建了界面友好、功能丰富的全新毒力因子数据分析平台,为VFDB数据库应用于病原细菌相关的大数据分析奠定了基础。