论文部分内容阅读
随着测序技术的不断发展和千人基因组计划的推动,基因组数据已经大量出现,着眼于全基因组范围的关联研究成果正不断被发表出来。基因组浏览器已成为广泛应用的工具之一,结合各类生物信息学数据库对基因组数据进行分析是一个有效的方法。如何对基因组数据进行多方位的深入分析,特别是在疾病方面会对个人产生何种影响是重要的研究课题。针对目前大多数基因组浏览器在疾病药物相关数据库整合方面的欠缺,本文制定了五条标准筛选了疾病药物相关数据库,并通过一个新的文件格式——GDF对这些数据库数据进行融合,运用加权打分和基于信息量的方法对数据的可信度进行评估,并对评估结果进行比较。通过类似数据仓库的方法将数据集成到一个B/S结构的基因组浏览器中,实现了不同的FileReader对不同类型的数据进行处理,用XML格式作为数据传输格式,通过对系统的部分性能测试发现其在加载本地服务器数据时耗费时间很短,具有较好的性能。主要研究成果是:对现有基因组浏览器底层数据类型进行归纳,通过加入疾病药物相关数据丰富了基因组浏览器的展示内容,形成了一个比较完善的知识体系,为研究者提供全面、便捷的参考;创建GDF格式存储疾病药物相关数据,有利于不同数据库之间的数据整合;通过运用加权打分和基于信息量的方法对整合数据的可信度进行评估,确保基因组浏览器加载数据的准确性;由于基因组数据格式的多样性,对数据仓库进行改进,使用不同的文件处理接口,提高文件处理的速度。