基于划分的分布式图书查重子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:liuweieasy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的快速发展,数字资源的爆炸式增长对于数字图书馆既是机遇也是挑战。一方面数字图书馆的内容变得更丰富,可以为读者提供更高质量的服务;另一方面,数字资源的高速增长、多元化给数据整合带来了难题。本文选取了书目数据的整合过程,探讨了数字图书馆在海量的数字资源整合的过程中可能出现的问题以及相应的解决方案。   本文对图书查重进行了形式化的描述,并以此作为查重算法设计的依据。   现阶段书目数据的整合面临的最大问题就是数据规模较大,传统的算法已经不适应海量的数据。   数据划分可以有效的减少数据计算规模,利用数据子集的特征值判定整个数据子集是否可能存在与待查数据重复的数据可以有效的减少计算量,提高查重效率。本文提出了一个数据划分的标准,并提出使用覆盖绝大部分数据的字段,主题名作为划分字段。采用了以词为标准的划分方式,为词库中的每一个词建立一个数据子集,以数据子集中所有数据的主题名中共同包含词的为此子集的特征值。这是一种允许一条数据存在多个数据子集的划分方式。在数据划分的条件下,数据查重的计算过程可以分成计算候选集和数据判重计算两个过程。   采用分布式的计算模型可以有效解决单机计算能力有限的问题。并为系统性能的提升找到了便捷的方法。在分布式的查重模型中,将系统的节点分成了两类,一类是分发任务的任务调度节点,一类是执行任务的计算节点。在比较粗粒度、中粒度和细粒度的任务划分方式后,结合目标和现实条件选择采用了粗粒度的任务划分方式。   最后利用开发出的基于划分的分布式图书查重子系统进行了4个实验。实验显示,系统在效率上的得到了有效提升,索引中的数据规模的增长对于系统的性能影响并不明显,在恰当的查重子任务数据规模下,增加计算节点可以提高系统的查重效率。
其他文献
图片搜索引擎是以图片作为主要检索对象的搜索引擎。由于图片搜索引擎的结果通过直接引用图片的原始地址来展现内容,如果图片变为无效链接,则在结果中无法展示。无效结果通常为
随着信息技术的高速发展,互联网已经完全融入了人们的学习、工作和生活,成为人们获取信息的一个重要途径。互联网上日益丰富的图片资源,使得图片被越来越多地应用于信息的承载和
计算机科学技术的不断发展,使得计算机在科学研究和工程实践领域得到广泛和深入的应用,科学研究和工程实践领域需要借助于并行计算来解决大规模计算问题,并且随着研究工作的深入
在现今信息时代中,因特网的迅猛发展促使了许多网络信息处理技术的产生,其中应用最为广泛的就是协同计算。一般地,在网络协同计算中,各个计算参与方需要提供各自的秘密信息作为输
伴随着丰富的标注资源的建立以及多次国际评测的开展,语义角色标注任务得到了较全面的研究,其中最主流的研究方向是基于句法成分的、使用机器学习方法将任务转化成分类问题来解
应用程序二进制接口规范定义了一套用以编译程序并确保程序正确运行的系统级接口。目前在MIPS、ARM和PowerPC等体系结构上,均有针对不同处理器或不同应用场景的ABI规范。在这
随着图像“字袋模型”(Bag of Visual Words)的迅速发展及其在物体识别、场景分类、图像检索等计算机视觉领域的广泛应用,如何快速有效地将图像特征映射成视觉词语成为提高系
虚拟现实(Virtual Reality)技术是近年来计算机科学的研究热点之一,随着海量数据处理、多用户远程并发访问和协同操作等应用需求的不断扩大,分布式虚拟现实系统(Distributed
随着数据采集技术的迅猛发展和互联网的快速普及,人们接触到的文本信息量呈现出爆炸式增长的趋势。为了有效地管理和利用这些海量文本信息,实现准确地文本信息定位和文本信息
人脸表情和外观编辑是计算机图形学中最为热门的领域之一。在本文中主要研究其中两个挑战性问题。第一,如何从有限的用户约束编辑得到稠密的人脸形状。我们需要对人脸局部区