基因组浏览器底层数据的分析与集成

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:remine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着测序技术的不断发展和千人基因组计划的推动,基因组数据已经大量出现,着眼于全基因组范围的关联研究成果正不断被发表出来。基因组浏览器已成为广泛应用的工具之一,结合各类生物信息学数据库对基因组数据进行分析是一个有效的方法。如何对基因组数据进行多方位的深入分析,特别是在疾病方面会对个人产生何种影响是重要的研究课题。针对目前大多数基因组浏览器在疾病药物相关数据库整合方面的欠缺,本文制定了五条标准筛选了疾病药物相关数据库,并通过一个新的文件格式——GDF对这些数据库数据进行融合,运用加权打分和基于信息量的方法对数据的可信度进行评估,并对评估结果进行比较。通过类似数据仓库的方法将数据集成到一个B/S结构的基因组浏览器中,实现了不同的FileReader对不同类型的数据进行处理,用XML格式作为数据传输格式,通过对系统的部分性能测试发现其在加载本地服务器数据时耗费时间很短,具有较好的性能。主要研究成果是:对现有基因组浏览器底层数据类型进行归纳,通过加入疾病药物相关数据丰富了基因组浏览器的展示内容,形成了一个比较完善的知识体系,为研究者提供全面、便捷的参考;创建GDF格式存储疾病药物相关数据,有利于不同数据库之间的数据整合;通过运用加权打分和基于信息量的方法对整合数据的可信度进行评估,确保基因组浏览器加载数据的准确性;由于基因组数据格式的多样性,对数据仓库进行改进,使用不同的文件处理接口,提高文件处理的速度。
其他文献
随着我国医疗服务信息化的推进,电子病历(Electronic Medical Record, EMR)已经变成医院信息系统的重要组成部分。随着时间的推移,很多医院的信息系统中产生大量病人信息,如
学位
学位
关键词检出(KWS)就是在无限制的语音流中识别检出给定词汇的一种语音识别技术,它是自动语音识别(ASR)技术的一种。相比较于连续语音识别(CSR)技术而言,由于它只关注给定词在语音中
Wireless sensor network (WSN) is composed of a large-scale self-organizing energy constrained sensor nodes, which is really a network of energy severely constra
阴影生成是实时绘制领域中的难点和热点问题之一。高质量的阴影不仅可以增强所绘制场景的真实性,而且有助于用户判断场景内物体间的相对位置关系和物体的几何形状。现实世界中
随着物联网技术的发展,信息量丰富的视频传感器在物联网中的应用也越来越广泛。然而,由于物联网视频传感器本身的物理特性,决定了他们在数据带宽、计算能力以及链接稳定性上
本文所述研究是家庭电子医疗平台研究项目的一部分,主要致力于建立电子医疗平台的数据管理系统部分的研究。主要研究对象是生理学时间连续数据。在家庭电子医疗平台中,存在生
学位
信用风险是商业银行面临的最重要风险之一。近年来,神经网络因良好的非线性映射能力使其对在解决商业银行信用风险评估问题上具有独到的应用优势。其中BP神经网络已有了较为广