论文部分内容阅读
数据挖掘作为当今各大企业和研究机构的一个主要的热门领域,正在飞速发展着,而海量数据的存取服务问题属于数据挖掘众多热门的研究分支之一。对于数据管理人员来说,大数据的处理是分为数据存储和数据分析两个方面。对于大数据存储管理和分析,业内一致的焦点都放在了怎么样才能高效地处理海量数据,同时兼顾安全性、可靠性、一致性和完整性。分布式数据存储管理系统作为海量数据存储管理系统的新贵,自然受到了多方关注研究。但作为一个海量数据处理领域的空间信息数据的存储处理,分布式数据存储管理系统的应用研究到现在还算是一个比较新的研究课题。因此本文主要以航运信息管理数据的存储、计算以及服务流程为代表来分析了三种分布式存储管理系统。同时重点介绍了以Google Bigtable为蓝本的开源分布式数据库Hypertable以及Google相关技术组件。同时也介绍了业内争议不休的行存储模式和列存储模式,并最终选取了行存储模式设计了航运信息管理系统中的港口监控部分。并针对行存储模式中关于读取数据效率不高的问题,将航运信息管理系统查询数据频繁的部分设计分割出来。最终确定了以Hypertable+MySQL+SQLite为最终存储方案。本文的主要工作如下:1)分布式数据存储系统技术架构分析研究,其中文件系统以Google File System,分布式锁服务以Chubby为例做了深入的研究分析和介绍。2)分析比较了行存储模式和列存储模式的优缺点。3)针对AIS数据的特点以及航运系统管理平台的需求设计了数据存储管理流程以及计算处理流程。针对具体的服务特点设计了较为适合的数据存储服务方案。