论文部分内容阅读
科学数据网格是在中国科学院科学数据库海量数据资源的基础上,利用先进的数据网格技术,连接分布在全国四十多个研究所而建设的一个面向大规模分布式异构数据资源的共享平台和应用环境。结构化数据资源,特别是存储在关系型数据库中的结构化数据,具有数量大、质量高的特点,对科研工作的意义重大。科学数据库中包含大量的异构资源,如何快速有效地找到用户感兴趣的数据资源,是网格环境中信息服务系统需要解决的关键问题。
本文的研究目标是在面向结构化数据特点而建立的索引的基础上,建立一个高效的搜索系统,实现对科学数据网格中大量结构化数据的资源发现。本文分析研究了搜索引擎技术和基于关键词的数据库检索技术,在借鉴和利用搜索引擎和基于关键词的数据库检索技术的基础上,研究了面向结构化数据资源发现的搜索技术,从而能够有效快速地发现科学数据库中的结构化数据资源。
本文取得的主要成果有:根据结构化数据资源的特性以及分布的索引系统,提出了一种面向结构化数据资源发现的搜索系统的体系结构;围绕该体系结构重点研究了包括向量空间权值、相关度权值和资源权值的排序策略,基于败者树的多路归并策略,Cache机制等;结合Lucene和EHCache设计并实现了一个搜索系统的原型。本文是对科学数据网格中面向结构化数据资源发现的搜索技术的一个探索,取得的成果在有关科研项目中得到初步应用。