论文部分内容阅读
随着人类基因组计划和其它一些模式生物基因组计划初步完成,生物信息学研究重点已从生物数据积累转到生物数据整合处理。由此,生物信息分析系统构建及其数据挖掘成为生物信息学领域的研究热点。然而,由于生物数据的多样性及其分析应用的复杂性,至今还没有一种通用的构建模型能够满足生物信息分析系统的开发需求,特别是病毒基因组进化速度快,数据增长迅速,对数据更新、挖掘提出了更高要求。本文以病毒基因组为研究对象,对其通用系统模型、数据自动更新、基因聚类分析等问题及关键技术进行了研究。在此基础上,构建新城疫病毒(Newcastle Disease Virus, NDV)生物信息分析系统。具体研究内容如下:1.基于多层体系结构的生物信息分析系统模型研究。针对生物信息分析系统的数据管理、集成、应用等问题,在总结生物信息分析系统一般工作流程的基础上,提出一种基于多层体系结构的通用生物信息分析系统模型BIOCMSM,该模型在普通三层体系结构模型基础上增加数据处理一层,较好地解决了生物数据的格式转化、处理、集成、更新等问题。2.基于Web的生物数据自动获取研究。针对生物信息数据的自动下载更新问题,提出一种切实可行的基于网络代理程序的处理方案,详细描述了该方案的算法设计与实现过程,并在NDV分析系统中得到应用,取得了良好的效果。同时该技术可用于其它生物技术研究领域,具有较好的通用性。3.基于密度的K中心聚类分析研究。针对核酸序列的聚类问题,提出了一种基于密度的K中心聚类方案,并在新型病毒预警中得到应用。实验表明,该方案与传统K中心聚类算法相比较,有初始化理想、迭代次数少、准确率较高等优点。