论文部分内容阅读
近几年来信息化进程开始以一种深度和广度共同发展的势头不断深入,随着物联网的兴起,大量传感器以及智能终端广泛应用于传统工业领域,这样势必带来数据的海量增长。如何有效的利用这些海量数据来提高工业生产效率成为一个亟待解决的问题,而解决这个问题的基础在于为这些工业互联网数据建立一个有效的存取机制。在这方面可以参考目前世界上应用广泛、成熟稳定的互联网技术,结合工业互联网数据特点以及传统的工业数据处理技术对这个问题进行研究。 集中式的存储系统在面对工业互联网数据的时候容量有限且扩展性不足,而传统的分布式数据库在系统弹性以及容错性等方面又不能很好的满足工业互联网数据存储的需求。在调研了大量存储系统之后决定在基于开源NoSQL的分布式存储平台上进行工业互联网数据存取策略的设计。 工业互联网数据存取策略主要包括两个部分:分布式存储策略与分布式查询策略。根据海量数据自身特性和便于查询的考虑,系统选取具备数据强一致性,采用列式键值存储模型和连续范围分片策略的开源NoSQL分布式存储平台,在此基础上设计分布式存储策略。同时采用Scatter/Gather Local Search查询模型,基于存储系统设计出高效分布式查询策略。分布式查询策略具备良好的负载均衡机制、容错性以及扩展性。 选取HBase作为存储平台并在此基础上实现分布式存取策略。根据存取的需求设计HBase的Rowkey,同时在子节点上仿真数据库与查询处理器实例,进行存取过程各方面性能仿真测试。通过测试结果可以看出,海量数据存储策略归档性能优异,扩展性与容错性较好。分布式查询策略随着查询处理器数目增多并行查询性能增强,但增强的趋势会逐渐变缓,连续时间范围查询具有良好的性能。