基于划分的分布式图书查重子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：liuweieasy

【摘要】

：

信息技术的快速发展,数字资源的爆炸式增长对于数字图书馆既是机遇也是挑战。一方面数字图书馆的内容变得更丰富,可以为读者提供更高质量的服务;另一方面,数字资源的高速增长

【作者】

：

岑睿

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2011年期

【关键词】

：

数字图书馆分布式图书查重子系统数据整合特征值判定

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息技术的快速发展,数字资源的爆炸式增长对于数字图书馆既是机遇也是挑战。一方面数字图书馆的内容变得更丰富,可以为读者提供更高质量的服务;另一方面,数字资源的高速增长、多元化给数据整合带来了难题。本文选取了书目数据的整合过程,探讨了数字图书馆在海量的数字资源整合的过程中可能出现的问题以及相应的解决方案。　　本文对图书查重进行了形式化的描述,并以此作为查重算法设计的依据。　　现阶段书目数据的整合面临的最大问题就是数据规模较大,传统的算法已经不适应海量的数据。　　数据划分可以有效的减少数据计算规模,利用数据子集的特征值判定整个数据子集是否可能存在与待查数据重复的数据可以有效的减少计算量,提高查重效率。本文提出了一个数据划分的标准,并提出使用覆盖绝大部分数据的字段,主题名作为划分字段。采用了以词为标准的划分方式,为词库中的每一个词建立一个数据子集,以数据子集中所有数据的主题名中共同包含词的为此子集的特征值。这是一种允许一条数据存在多个数据子集的划分方式。在数据划分的条件下,数据查重的计算过程可以分成计算候选集和数据判重计算两个过程。　　采用分布式的计算模型可以有效解决单机计算能力有限的问题。并为系统性能的提升找到了便捷的方法。在分布式的查重模型中,将系统的节点分成了两类,一类是分发任务的任务调度节点,一类是执行任务的计算节点。在比较粗粒度、中粒度和细粒度的任务划分方式后,结合目标和现实条件选择采用了粗粒度的任务划分方式。　　最后利用开发出的基于划分的分布式图书查重子系统进行了4个实验。实验显示,系统在效率上的得到了有效提升,索引中的数据规模的增长对于系统的性能影响并不明显,在恰当的查重子任务数据规模下,增加计算节点可以提高系统的查重效率。

其他文献

降低图片搜索引擎中无效链接率的一种方法的研究与实现

图片搜索引擎是以图片作为主要检索对象的搜索引擎。由于图片搜索引擎的结果通过直接引用图片的原始地址来展现内容，如果图片变为无效链接，则在结果中无法展示。无效结果通常为

学位

图片搜索引擎无效链接识别用户体验服务流程特征判断

网页图片信息提取系统设计与实现

随着信息技术的高速发展，互联网已经完全融入了人们的学习、工作和生活，成为人们获取信息的一个重要途径。互联网上日益丰富的图片资源，使得图片被越来越多地应用于信息的承载和

学位

网页图片信息提取系统描述文本检索性能程序设计

基于Xen多虚拟机的容错并行计算高效通信技术研究

计算机科学技术的不断发展，使得计算机在科学研究和工程实践领域得到广泛和深入的应用，科学研究和工程实践领域需要借助于并行计算来解决大规模计算问题，并且随着研究工作的深入

学位

Xen多虚拟机容错并行计算通信功能动态迁移

几个计算几何问题的安全多方计算研究

在现今信息时代中，因特网的迅猛发展促使了许多网络信息处理技术的产生，其中应用最为广泛的就是协同计算。一般地，在网络协同计算中，各个计算参与方需要提供各自的秘密信息作为输

学位

安全多方计算计算几何圆锥曲线伪随机函数不经意传输集合交并

半指导中文语义角色标注

伴随着丰富的标注资源的建立以及多次国际评测的开展，语义角色标注任务得到了较全面的研究，其中最主流的研究方向是基于句法成分的、使用机器学习方法将任务转化成分类问题来解

学位

半指导中文模型语义角色标注系统选择策略分类效果

基于UniCore平台ABI规范的制定与评估

应用程序二进制接口规范定义了一套用以编译程序并确保程序正确运行的系统级接口。目前在MIPS、ARM和PowerPC等体系结构上,均有针对不同处理器或不同应用场景的ABI规范。在这

学位

UniCore处理器ABI规范二进制接口编译程序

基于空间相关性的视觉词语映射加速算法

随着图像“字袋模型”(Bag of Visual Words)的迅速发展及其在物体识别、场景分类、图像检索等计算机视觉领域的广泛应用,如何快速有效地将图像特征映射成视觉词语成为提高系

学位

空间相关性视觉词语间接映射算法图像特征映射

分布式虚拟现实系统基础开发平台的构建

虚拟现实(Virtual Reality)技术是近年来计算机科学的研究热点之一,随着海量数据处理、多用户远程并发访问和协同操作等应用需求的不断扩大,分布式虚拟现实系统(Distributed

学位

软件平台运动控制分布式虚拟现实系统整体架构人机交互

多标签文本分类系统的研究与实现

随着数据采集技术的迅猛发展和互联网的快速普及,人们接触到的文本信息量呈现出爆炸式增长的趋势。为了有效地管理和利用这些海量文本信息,实现准确地文本信息定位和文本信息

学位

多标签文本分类数据采集技术文本信息过滤机器学习

基于流形的人脸表情与外观编辑

人脸表情和外观编辑是计算机图形学中最为热门的领域之一。在本文中主要研究其中两个挑战性问题。第一,如何从有限的用户约束编辑得到稠密的人脸形状。我们需要对人脸局部区

学位

人脸表情外观编辑流形图属性变换

基于划分的分布式图书查重子系统的设计与实现

与本文相关的学术论文