论文部分内容阅读
e-Science旨在重要的科学领域中通过因特网进行分布在全球的合作,并充分利用极大规模的数据、万亿次规模的计算资源和高性能的可视化设施促进广泛、深入的科学研究和产生新的科学发现。在e-Science协同工作环境中,项目组成员、虚拟组织成员之间共享大量结构化、半结构化的文档信息。他们拥有的网络信息资源数量越来越多,迫切需要某种组织工具来方便信息的共享和定位;同时针对用户对资源组织的不同目的和需求,提供个性化的服务。
e-Science虚拟实验室(以下简称虚拟实验室)是中国科学院“十一·五”信息化重点建设内容。它是一个全面支持e-Science的综合性协同工作环境,是由支持资源共享与协同工作的硬件、软件、数据、信息等资源和人员组织共同构成的有机整体。虚拟实验室由若干核心功能模块及外围功能模块组成,本文的研究工作是围绕其中一个核心模块——协同文档库(Colibrary,CLB)来展开的。协同文档库是一种面向组用户的协作式写作、文档共享和管理的工具,支持虚拟组织成员之间便捷高效地共享和协同写作各类数字化文档。
CLB采用目前广泛用于互联网资源信息共享的组织形式--自由分类法对共享文档进行管理。本文首先对中文社会化网络的重要组成元素--标签进行统计实验,总结出在中文协作性社区中标签频度服从威布尔分布,为CLB标签的使用提供有价值的参考依据。其次,本文在CLB已有模型的基础上实现了基于标签的文档搜索功能,方便用户通过标签对资源进行快速定位。同时根据标签搜索方式实现的特点,提出有效措施改进数据库性能。
另一方面,标签统计实验的分布规律显示了在CLB中使用标签查询缓存降低用户查询响应时间方面的可行性。本文利用开源缓存工具Ehcache实现内存级的查询缓存,进一步改善了CLB处理并发请求的能力。最后,通过设计查询模拟序列对缓存替换策略进行比较分析,结果认为LRU是CLB查询缓存首选的替换策略;同时初步研究了缓存数据生命周期的设置机制,为应用系统的高性能运行提供保障。