论文部分内容阅读
档案是企业的重要信息资源之一,在网络信息化趋势越来越明显的如今,南通市档案馆的“库存”数据量也早已远胜先前,档案馆存有来自全国各省份的档案,对南通市档案馆大数据的管理和应用显得尤其重要。其中,南通市档案馆大数据实时分析是其关键应用之一。基于此,对于南通市档案馆大数据管理核心需实现存储、自动备份、易于处理等重要目标,然而这些目标基于传统关系型数据库来实现会造成南通市档案馆大数据的管理即在容量、存储效率、处理性能和查询优化方面存在一定的瓶颈问题。对传统研究方式涉及到的问题总结概括以下三点,第一,存储性能方面,传统关系型数据中存储的数据越来越多,可扩展性也因此而显得较低,性能较低,并对于半结构化、非结构话的数据存储效果不理想。第二,分析效率查询这一层面上,对于有相对较大数据量的表,其往往查询效率较低且延迟高。第三,并发高这一方面,因其关系型库带来的诸多关联导致的慢查询造成服务器cpu负载较高,无响应。从传统研究方式表现出的各种不足,提出优化分析平台用于南通市档案馆层面的大数据管理,本研究的主要工作包括:⑴对于南通市档案馆大数据的管理,首先提出面向南通市档案馆的大数据管理平台方面的系统架构。其包括从源数据采集到结果输出的众多数据管理活动,一系列管理模块彼此间既互相协调又分工明确,构建其完整的大数据平台管理体系。(2)对于南通市档案馆源数据的存储,提出非关系型数据库mongodb。相比于原有的关系型数据库mysql拥有更快的写入速度,在处理高并发大数据量时有非常显著的效果。⑶面向南通市档案馆的大数据管理平台查询性能优化。数据优化是大数据交互式查询分析的核心,本文先后在修改查询计划、基于spark streaming算法等方面对南通市档案馆大数据进行优化,提升查询的速度和效率,符合实时处理场景。