协同工作环境中基于标签的文档检索技术研究与实现

来源 :中国科学院计算机网络信息中心 | 被引量 : 0次 | 上传用户:xieyinglan2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
e-Science旨在重要的科学领域中通过因特网进行分布在全球的合作,并充分利用极大规模的数据、万亿次规模的计算资源和高性能的可视化设施促进广泛、深入的科学研究和产生新的科学发现。在e-Science协同工作环境中,项目组成员、虚拟组织成员之间共享大量结构化、半结构化的文档信息。他们拥有的网络信息资源数量越来越多,迫切需要某种组织工具来方便信息的共享和定位;同时针对用户对资源组织的不同目的和需求,提供个性化的服务。   e-Science虚拟实验室(以下简称虚拟实验室)是中国科学院“十一·五”信息化重点建设内容。它是一个全面支持e-Science的综合性协同工作环境,是由支持资源共享与协同工作的硬件、软件、数据、信息等资源和人员组织共同构成的有机整体。虚拟实验室由若干核心功能模块及外围功能模块组成,本文的研究工作是围绕其中一个核心模块——协同文档库(Colibrary,CLB)来展开的。协同文档库是一种面向组用户的协作式写作、文档共享和管理的工具,支持虚拟组织成员之间便捷高效地共享和协同写作各类数字化文档。   CLB采用目前广泛用于互联网资源信息共享的组织形式--自由分类法对共享文档进行管理。本文首先对中文社会化网络的重要组成元素--标签进行统计实验,总结出在中文协作性社区中标签频度服从威布尔分布,为CLB标签的使用提供有价值的参考依据。其次,本文在CLB已有模型的基础上实现了基于标签的文档搜索功能,方便用户通过标签对资源进行快速定位。同时根据标签搜索方式实现的特点,提出有效措施改进数据库性能。   另一方面,标签统计实验的分布规律显示了在CLB中使用标签查询缓存降低用户查询响应时间方面的可行性。本文利用开源缓存工具Ehcache实现内存级的查询缓存,进一步改善了CLB处理并发请求的能力。最后,通过设计查询模拟序列对缓存替换策略进行比较分析,结果认为LRU是CLB查询缓存首选的替换策略;同时初步研究了缓存数据生命周期的设置机制,为应用系统的高性能运行提供保障。
其他文献
本论文基于企业的实际产品设计,对智能手机的设计过程进行了分析和研究。基于Linux的智能手机软件平台项目是联想研究院的重点项目,其目的为统一联想高端智能手机软件平台。
如今的企业级应用开发环境中,面向对象的开发方法已经成为主流,但对象只能存在于内存中,而无法永久保留。如果要永久保存对象的状态,则需要将对象映射到关系数据库中,这个映射过程
当前,集成更多功能的系统芯片已成为国际超大规模集成电路的主流。新增和改进功能往往意味着大量的数据传输,使得I/O设备和存储器之间的数据交换成为新的瓶颈,直接存储器访问(DM
虚拟实验室是一个全面支持e-Science的综合性协同工作环境,是由支持资源共享与协同工作的硬件、软件、数据、信息等资源和人员组织共同构成的有机的整体。其中,协同文档库(Coli
二十世纪九十年代以来,互联网逐渐深入到人们日常生活的各个方面,成为其不可或缺的一部分,而网络蠕虫也随之泛滥,产生越来越严重的危害。人们从不同思路和防范目的出发,研发了多种
自动微分方法基于链式求导法则,通过各种预编译手段,把一个数值程序代码转换成对应的计算导数的程序代码。在计算函数梯度、海森矩阵时,自动微分方法和有限差分相比在计算时
人群活动是大量个体移动的集合,是人类活动的重要组成部分,也是人在真实世界中生活的直接体现。随着新兴的信息技术和通信技术的广泛应用,传统的地理意义上的真实世界已经成为一
在智能推理当中,特别是常识知识推理中,信息的不完备是不可避免的.缺省推理是用来处理不完备信息的一种有效手段.缺省逻辑是缺省推理的一种形式化方法,但是在经典缺省逻辑的推理
在计算机图形学领域中,再现具有真实感的人脸纹理有着重要的学术价值和广泛的应用前景。本文以生成具有真实感的人脸纹理为研究月标,针对此问题中的有效的带约束纹理映射技术和
随着移动互联网的迅猛发展,移动数据流量呈指数倍增长。一方面,由于80%的移动数据流量仅发生在20%的热点区域,在传统的宏小区区域重叠覆盖低功率节点的异构无线网络成为满足局部区