论文部分内容阅读
德国工业4.0的产生与兴起使得制造业逐渐迈入了大数据时代。从产品的设计、制造到维修的整个生命周期中,都会产生大量的结构化、半结构化、非结构化数据,它们具有多模态、高通量、强关联等特性。作为新一代信息技术的关键,制造业大数据将逐渐成为产业革命的核心,是实现智慧生产的重要因素,因此如何存储和管理制造业大数据成为人们研究的热点。对大数据的管理一般采用分布式存储的方法,虽然目前已有许多分布式存储方案,也出现了一些工业大数据管理平台,但采用现有方法对制造业大数据进行存储存在以下几方面的不足:(1)数据管理分散,当需要进行信息共享时,会造成人员之间的频繁沟通;(2)对复杂关联关系的管理能力不够;(3)现有的管理系统均为通用系统,从而缺乏对制造业大数据独有特征的支持等等。为了对制造业大数据进行高效地存储管理,解决现有存储方案的不足,本文设计并实现了针对制造业大数据的分布式存储引擎,利用对象代理数据库实现元数据存储管理功能,以HDFS为文件系统实现分布式数据存储管理的功能,并根据元数据信息与数据间的关联关系对小文件存储和副本机制进行优化。本文的工作主要包括以下几方面:(1)利用源类与代理类之间的代理关系,本文提出了基于对象代理模型的制造业非结构化数据元数据管理方法,分别对其元数据、实体组成关系与约束关系、实体数据对应关系进行建模;(2)由于制造业大数据中存在海量的小文件,而HDFS存储小文件时存在着存储空间浪费等问题,因此本文对小文件存储进行优化,综合考虑文件之间的关联关系以及合并后的存储空间利用率对文件聚簇,将小文件组织成聚簇文件进行存储;(3)针对制造业数据访问具有时效性这一特征,本文对HDFS的副本管理机制进行了改进,根据文件的历史访问频率以及系统的存储空间使用情况,计算文件当前的副本需求量并动态调整副本,当需要增加副本时,本文根据节点的工作状态、副本复制的网络开销以及相关用户的读取效率,为文件选择最优的副本存放节点。最后将本文设计的分布式存储引擎在实际环境中进行部署,对以上方案从功能和性能两方面进行了验证。实验结果不仅表明了功能的正确性与完整性,而且也说明了本文方法在性能上是有效的,能够显著地提高系统的读取效率。