分布式环境下的文档相似度研究与实现

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:likezzz21cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题,以非结构化文档为研究对象,提出一种基于Hadoop分布式环境,结合Hive数据处理平台和PostgreSQL关系型数据库的文档相似度计算方法,并给出关键技术思路、具体实现步骤和实证研究,通过研究证明Hive SQL语言可有效简化分布式数据处理的复杂性,但实时性有待改进。 Aiming at the bottleneck problem of traditional data processing scale limit and performance insufficiency exposed by the traditional similarity calculation method in mass information processing, this paper takes unstructured document as research object, and proposes a Hadoop distributed environment based on Hive data Processing platform and PostgreSQL relational database document similarity calculation method, and gives the key technical ideas, specific steps and empirical research proved that Hive SQL language can effectively simplify the complexity of distributed data processing, but the real-time needs to be improved .
其他文献
在我国城市化进程脚步不断的加快下,城市工程的建设项目越来越多,建筑行业得到了快速的发展,建筑工程的结构也逐渐多样化.混凝土结构正逐渐成为一种主要的施工结构,因此提高
介绍了空气中甲醛的危害和主要来源.酚试剂分光光度法是GB 50325 - 2001里室内空气中甲醛检测的主要分析方法,本文对该方法的显色反应进行了较为全面的阐述,分析显色时间、入
随着近年来我国科学技术的飞速发展,土建施工技术也在得到不断的更新和改进,现代化钢筋混凝土结构建筑逐渐成为土建施工中的主要结构。现代化钢筋混凝土结构建筑质量的好坏,与混
深入研究Fedora仓储软件的内容模型框架的构成和使用原理,以及所带来的灵活性、可扩展性和可继承性等特点,并结合实际案例初步探讨利用内容模型框架对复杂数字对象进行保存管
建筑工程钢筋混凝土施工中易发生的问题很多,其质量的好坏,既对建筑物结构的安全性,也对建筑物耐久性、经济性有很大影响。只要我们严把质量关,按要求和规程进行操作,就可以杜绝以
机械自动化主要是指自动化技术在机械工程中的推广与应用,通过机械自动化技术的应用,有效提高机械加工生产的效率与效益,以此来促进机械工程行业的健康、稳定、长效发展.但从
当前,建筑工程设计防雷审查是履行防雷社会监督工作的一项重要内容,是预防雷击灾害的根本措施.本文就建设工程防雷图纸审查方法进行探讨.
以北京第二外国语学院图书馆虚拟化云平台建设为例,通过对几种虚拟化云平台方案分析与比较,提出基于Xen Cloud Platform(XCP)的虚拟化云平台建设的完整解决方案。该方案包括
文章从农村饮水安全工程的主要特点及施工中常见的质量问题分析入手,对农村饮水安全工程施工技术及质量控制对策进行论述。期望通过本文的研究能够对提高农村饮水安全工程的整
关系型数据库和关联数据的概念模型都基于现实世界的实体、属性及其关系而构建,具备建立映射和实现转换的可能性。两者语义模式映射的重点是关联关系的构建与表达。开源软件D2