面向结构化数据资源发现的搜索系统研究与实现

来源 :中国科学院计算机网络信息中心 | 被引量 : 0次 | 上传用户:susan222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学数据网格是在中国科学院科学数据库海量数据资源的基础上,利用先进的数据网格技术,连接分布在全国四十多个研究所而建设的一个面向大规模分布式异构数据资源的共享平台和应用环境。结构化数据资源,特别是存储在关系型数据库中的结构化数据,具有数量大、质量高的特点,对科研工作的意义重大。科学数据库中包含大量的异构资源,如何快速有效地找到用户感兴趣的数据资源,是网格环境中信息服务系统需要解决的关键问题。   本文的研究目标是在面向结构化数据特点而建立的索引的基础上,建立一个高效的搜索系统,实现对科学数据网格中大量结构化数据的资源发现。本文分析研究了搜索引擎技术和基于关键词的数据库检索技术,在借鉴和利用搜索引擎和基于关键词的数据库检索技术的基础上,研究了面向结构化数据资源发现的搜索技术,从而能够有效快速地发现科学数据库中的结构化数据资源。   本文取得的主要成果有:根据结构化数据资源的特性以及分布的索引系统,提出了一种面向结构化数据资源发现的搜索系统的体系结构;围绕该体系结构重点研究了包括向量空间权值、相关度权值和资源权值的排序策略,基于败者树的多路归并策略,Cache机制等;结合Lucene和EHCache设计并实现了一个搜索系统的原型。本文是对科学数据网格中面向结构化数据资源发现的搜索技术的一个探索,取得的成果在有关科研项目中得到初步应用。
其他文献
随着互联网、通信等信息技术的飞速发展,全球数据正在以前所未有的速度积累,如何从这些海量数据中挖掘有价值的信息已成为学术界和工业界关注的焦点。数据规模的快速增长伴随着
众核处理器的片上网络对于提高处理器的性能与可扩展性具有重要作用。随着处理器芯片规模的增长,片上网络面临着诸多问题的挑战:一方面,多应用同时运行使得每个应用的网络性能
人类基因组中超过70%的区域能发生转录,但只有1%~2%的部分区域能编码出蛋白质,其余大面积的区域称为非编码区域,这些区域转录出的RNA分子都不具备蛋白编码能力(无蛋白质产物生成),被称
随着计算机技术的不断发展,软件复杂度有了很大的提高。软件中存在的问题越来越突出。因此,提高软件质量及可靠性已成为当前软件工程领域的重要任务。软件测试是保障软件质量
信息技术的飞速发展引发了人类生活方式的巨大转变,RFID、穿戴式传感设备、智能家居等新技术的普及加速了物理世界和赛博空间的融合。三元计算理论是在这一背景下出现的新型计
自1950年图灵测试提出以来,问答系统一直是人工智能领域研究的重要课题之一。相对于英文问答系统的迅速发展以及语义信息处理技术的广泛应用,目前语义分析的方法在汉语问答系统
语音识别噪音场景库的建设对于语音识别技术及评测技术都具有重要的研究意义.噪音场景库的设计包括对噪音场景进行分布估计、聚类分析、自动分类等流程.本文首先用统计学的抽
近年来,流媒体在互联网上大量应用。然而,媒体的质量并不让人满意。主要是由于传统C/S模式过分依赖媒体服务器的性能和带宽。于是,研究人员想出了很多的解决办法。其中比较有代
学位
土地评价是土地利用与规划的关键步骤,是土壤科学研究的主要内容之一。土地评价一直是一个较为复杂的问题,不同地区对农业生产具有不同的影响因子,各影响因子对不同的生产目标又
互联网作为一种交互式媒体,被越来越多的人用来表达自己的观点和态度。这些带有倾向性的主观性语言集中在Blog、论坛和留言之中,包含有大量信息,自动挖掘其中的观点和态度,具有十