制造业大数据分布式存储管理方法研究

来源 :武汉大学 | 被引量 : 13次 | 上传用户:bhfoot
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
德国工业4.0的产生与兴起使得制造业逐渐迈入了大数据时代。从产品的设计、制造到维修的整个生命周期中,都会产生大量的结构化、半结构化、非结构化数据,它们具有多模态、高通量、强关联等特性。作为新一代信息技术的关键,制造业大数据将逐渐成为产业革命的核心,是实现智慧生产的重要因素,因此如何存储和管理制造业大数据成为人们研究的热点。对大数据的管理一般采用分布式存储的方法,虽然目前已有许多分布式存储方案,也出现了一些工业大数据管理平台,但采用现有方法对制造业大数据进行存储存在以下几方面的不足:(1)数据管理分散,当需要进行信息共享时,会造成人员之间的频繁沟通;(2)对复杂关联关系的管理能力不够;(3)现有的管理系统均为通用系统,从而缺乏对制造业大数据独有特征的支持等等。为了对制造业大数据进行高效地存储管理,解决现有存储方案的不足,本文设计并实现了针对制造业大数据的分布式存储引擎,利用对象代理数据库实现元数据存储管理功能,以HDFS为文件系统实现分布式数据存储管理的功能,并根据元数据信息与数据间的关联关系对小文件存储和副本机制进行优化。本文的工作主要包括以下几方面:(1)利用源类与代理类之间的代理关系,本文提出了基于对象代理模型的制造业非结构化数据元数据管理方法,分别对其元数据、实体组成关系与约束关系、实体数据对应关系进行建模;(2)由于制造业大数据中存在海量的小文件,而HDFS存储小文件时存在着存储空间浪费等问题,因此本文对小文件存储进行优化,综合考虑文件之间的关联关系以及合并后的存储空间利用率对文件聚簇,将小文件组织成聚簇文件进行存储;(3)针对制造业数据访问具有时效性这一特征,本文对HDFS的副本管理机制进行了改进,根据文件的历史访问频率以及系统的存储空间使用情况,计算文件当前的副本需求量并动态调整副本,当需要增加副本时,本文根据节点的工作状态、副本复制的网络开销以及相关用户的读取效率,为文件选择最优的副本存放节点。最后将本文设计的分布式存储引擎在实际环境中进行部署,对以上方案从功能和性能两方面进行了验证。实验结果不仅表明了功能的正确性与完整性,而且也说明了本文方法在性能上是有效的,能够显著地提高系统的读取效率。
其他文献
目的:探讨慢性肾炎患者精液质量及其影响机制。方法:对35例不同阶段的慢性肾炎及20例健康志愿者精液常规检验结果进行统计分析。结果:慢性肾炎患者的精液主要参数(精子活动力
从中药功效为切入点综述了芳香类中药在儿科的运用情况,旨在为芳香疗法在儿科临床的运用及研究提供借鉴参考。芳香类中药具有芳香化湿、解表、理气、醒脾、辟秽、开窍、解郁
以4D数据为基础,利用三维地理信息系统软件IMAGIS,通过数据预处理、三维建模、纹理映射、三维场景生成等过程,建立了福州滨江景观三维可视地理信息系统。该系统具有数据集成
通过城市中心区的新建道路的噪声问题愈来愈成为公众关注的热点问题。本文根据深港西部通道深圳侧接线工程通过山海翠庐段封闭式声屏障的工程实例,探讨封闭式声屏障的环境影
实际人均GDP是具有重要经济意义的指标,它的增长具有一定的内在规律性,文章建立了宁夏实际人均GDP的带趋势项的混合时间序列模型,分析研究了模型的稳定性和可外推性,预测了20
当前计算机不断普及,应用领域不断拓宽,掌握计算机检修方法对计算机应用者来说很有必要,然而要求所有应用者都系统掌握计算机组成原理,深入学习维修理论不切实际,所以文章从
我国海域的环境质量状况很不乐观,这不仅是由于各种途径的污染和不合理的海洋开发造成的,而且与我国目前的海洋管理体制和海洋执法有密切关系。为了控制和减轻海洋环境污染,
<正>总成本领先战略:战略大师迈克 尔·波特定义了三种战略定 位:基于需求的定位(指满足一个特 定顾客群的全部或大部分需求)、基 于品种(Variety)的定位和基于接触 (Access)
本文从水动力可靠性方面对Y-130/39-2型锅炉低负荷运行的安全性进行研究和分析.结果表明:50%负荷以上水循环可靠;40%负荷循环流量有波动,但水循环可靠;30%负荷不宜长期运行;2
简述了建筑钢结构在我国的应用状况 ,介绍了我国发展建筑钢结构的新建筑技术政策 .结合工程实例 ,提出了用综合经济效益取代习惯上采用的用单位面积用钢量来评价建筑结构方案