基于Hadoop的非结构化数据管理在离散制造业中的研究与实现

来源 :河北工业大学 | 被引量 : 3次 | 上传用户:weicun_weicun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来离散制造企业高度重视信息化的建设,经过几年的发展,已初具成效。在几年的业务发展中,企业内产生了大量的信息化数据,包括办公文档、业务订单、数据报表、图片、音频、视频等信息。企业通常采用的提取有效信息存储到数据库,将原文件保存到磁盘的方式,一定程度解决了企业数据管理的问题。但是随着数据量的急剧增长,对这些非结构化数据合理有效的管理与利用成了企业面临的一个新的大问题,也是增强企业国际竞争力的一个关键。本文以某离散制造企业内非结构化数据管理系统为背景,结合当前流行的hadoop分布式框架,设计实现了基于hadoop的非结构化数据管理系统。在研究此离散制造业非结构化数据的过程中发现企业内文件大小较小,以及hadoop在存储小文件需要相关人员定期手工进行小文件合并难的问题,通过分布式数据库hbase中计数器的合理利用,在企业进行非结构化数据存储时提出了一种基于hbase的小文件自动归档合并策略;其次,为了克服以往将原文档直接保存到磁盘无法进行按内容查找的问题,本文利用lucene全文检索引擎技术工具包,设计了一种在hadoop环境下基于lucene的全文内容检索策略;最后,将此非结构化数据管理系统应用到某离散制造业现有的管理系统中,解决企业在原有系统中大量附件上传带来的文件存储安全与文件备份、查找等问题。在本文设计实现的非结构化数据管理系统中,通过对某离散制造企业多年办公文档的存储管理,可以看到此系统一方面通过小文件自动归档合并,解决了hadoop进行小文件存储影响系统性能的问题;另一方面通过lucene全文检索引擎方便了用户通过文档内容进行文档检索,提高了办公效率;通过与企业内原有的系统整合,解决了原系统在附件管理中存在的问题。
其他文献
近些年由于因特网和电子商务的发展,企业内部基于WEB和办公系统的信息量增长迅速,这些数据具有不确定的子类型和属性,包含复杂数据类型和复杂的引用关系,如WEB上的网页、各种
与传统中国邮路问题相比,对动态网络中国邮路问题的研究具有更为重要的现实应用意义,成为了智能交通系统、计算机网络通信等复杂应用领域迫切需要解决的问题。解决传统中国邮路
车辆路径问题是研究如何优化物流运输的核心问题。研究车辆路径问题对于降低物流公司的运输成本,提高物流公司的服务质量都有重要意义。本文重点研究了带时间窗的车辆路径问
随着云计算和云应用的兴起,特别是近年来社交网络的普及,使得关于云计算的研究越来越受到研究者的关注。由于云计算的设备一般都很庞大,其所消耗的电能也非常巨大,因此,云平
随着社会的发展,各方面对快速有效的自动身份验证的要求日益迫切。由于生物特征是人内在属性,具有很强的稳定性和个体差异,因此是身份验证的理想依据。而人脸识别与指纹,虹膜
随着电信市场的开放和通信技术的发展,各种类型的电信增值业务不断的涌现,成为了电信企业的新的增长点;同时,增值业务产业价值链也随着合作伙伴的出现,出现了深远的变化。在增值业
增强现实是把计算机生成的虚拟物体信息合成到用户感知的真实世界中的一种技术。基于视觉标识跟踪技术的增强现实系统是通过跟踪视觉标识综合使用显示技术、交互技术、多种传
并行处理技术已经引起了石油地球物理界的广泛关注,如何将现有地震数据处理模块快速,高效地移植到集群上已成为地震数据处理需要解决的重大课题。面向大规模、高精度并行地震
多序列比对和系统发育分析是生物信息学的重要研究领域。通过多序列比对和系统发育可以预测新序列的结构和功能,分析序列之间的同源关系。提高序列的多序列比对准确率和重构
随着全球互联网(Internet)的迅猛发展,网络软硬件技术的快速提升,宽带网络迅速普及。以视频会议、视频点播、远程教育为代表的新型多媒体组播应用成了宽带网络的宠儿,日益受到人