基于分布式内存架构的空间矢量数据并行分析方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:zxy6651
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
激增的数据量对大数据分析不断提出新的挑战,因而一系列具有快速、易用、可扩展特征的大数据分析新架构不断涌现。分布式内存计算已证明其较MapReduce架构计算性能更优,当被应用在地理信息领域中,为高性能的地理计算提供了新的研究视角。但无论是MapReduce还是分布式内存计算框架本身不支持地理空间数据分析。面对这一现状,很多系统基于这两种计算架构进行了改进以支持空间分析,在特定空间分析领域中表现出了优越的性能。因而,本文基于分布式内存计算架构,着眼于大规模空间矢量数据,考虑对其分析方法进行并行优化。空间大规模矢量数据具有多维、形式多样、结构复杂、分布不均衡的特征,大大增加了分析的难度。本文从考虑空间矢量数据输入系统后的划分、计算、查询这三个层面的特定分析方法,最终实现对空间实时聚集分析应用的支持。(1)提出一种基于随机采样样本和自适应Hilbert排列码的空间矢量数据划分方法,能够快速提供最优的划分方式。数据划分是数据在系统中处理的第一步,通过划分函数将整块空间数据划分到各个计算节点中。因为空间数据包含空间维度信息,所以需要将空间上邻近的数据划分到同一个节点中。因而,本文使用Hilbert空间填充曲线排列码进行数据划分。又因为空间数据的分布不均衡性,需要确定Hilbert空间排列码的层次。本文中先从输入数据中构建一个随机采样样本,通过自适应的迭代求出针对特定数据的排列码层级。此外,介绍了划分分解过程中数据倾斜和边界对象两个问题的处理方法。(2)对矢量数据缓冲区分析这一计算密集型分析算法进行并行优化,采用近似切分、网格累进的任务分解和给定深度的树状合并方法三种策略,较现有的商业流行软件和其他并行策略效率提升了50%以上。矢量缓冲区分析是一类最基本的空间分析方法,其并行化策略对于提升计算效率至关重要。传统的并行优化方法往往基于MPI(Message Pass Interface,消息传递接口),在可扩展性方面受到了限制,而且没有考虑数据的空间邻近特性。所以本文首先按照Hilbert填充曲线编码方式对数据进行划分,对划分过程中存在的边界问题采用切分方法处理。在任务分解时,按照网格累进的方式使每个分解的数据块包含近似相同的对象数量,保证后续单个数据块内的缓冲区计算耗时大致相同。最后,通过给定深度的树状合并方法合并各个数据块的缓冲区计算结果。(3)提出了并行的聚集索引方法,相较于当前分布式内存空间分析系统中支持的索引方式,提升了精确聚集查询的效率。然后,提出了面向空间在线分析的并行近似查询索引方法,快速反馈近似查询结果,以及任意置信度下的置信区间。空间聚集查询是一类应用广泛的查询,本文中主要研究了矩形框聚集查询方法。首先,对聚集R树优化得到Hilbert聚集R树,然后对其并行化构建,结合网格全局索引得到了一种两级索引结构,支持精确聚集结果的并行查询。之后,考虑到随机采样是一种应对大规模数据的有效方法,因而在多层级采样的随机采样样本基础上,构建多层级索引,然后以一种逐层查询的方式反馈近似查询结果,以及该结果对应的任意置信度下的置信区间,为是否终止查询提供参考。(4)面向实时在线分析,设计并实现了大规模轨迹数据在线实时聚集分析原型系统HiStream,支持实时聚集分析,并提供ROI(Range of interest,兴趣区域)和POI(Point of interest,兴趣点)两种尺度下的多种时空分析工具。除了前面提及的并行优化技术,HiStream系统还基于HTML5的数据可视化技术,提供了良好的交互界面。HiStream的基本功能是聚集结果的实时聚集分析,并通过热力分布图的形式展示,实现了亿级轨迹点数据集的秒级响应。此外,原型系统还提供多种交互分析工具,能够实现高效的时空模式发现。本文还提供了城市热点快速发现、城市异常模式快速检测、城市出行模式快速检测分析这三类分析案例。
其他文献
迁移是教育心理学研究的一个重要课题。随着科技的发展,各学科相互渗透,迁移理论日益受到体育界的重视。本文分析了足球运动技能的影响因素,就有关运动技能迁移规律在足球教
目的:通过细心观察小腿外伤骨折患者,早期发现小腿骨筋膜室综合征并发症。方法:对挤压伤,严重挫伤患者要做到重点患者重点观察,连续、细致观察,区分疼痛的性质,观察伤肢肿胀情
在专业课教学中,课程思政的实施需要注意策略的运用。一方面,专业课教师要理解课程思政的理念与意义,意识到自身需要承担的育人功能,也要认识到课程思政与思政课程的差异性;
<正> XF125型摩托车离合器在国产化过程中,因制造技术、工艺条件和测试手段与日本HONDA公司提供的产品技术要求尚有一定的差距。国产品在台架和道路试验时,主要表现为离合器
利用聚丙烯负载二氧化钛膜固定农药降解酶(EC3.1.8.2),研究了酶固定化的条件,选择农药甲基对硫磷进行了降解试验。结果表明,酶固定化最佳时间为1.5h,最适固定温度为20℃,最佳固定化酶液
流行的英语词汇记忆法忽视语篇语境的作用,大学英语教材的课文语境偏难,不利干词汇习得。为此,教育部大学英语教育改革某研究项目课题组以心理学、语义学理论为指导,探讨系统微型
随着我国重型机电产品出口的快速增长,人们对重型机电产品的包装也提出了更高的要求。针对重型机电产品包装以木箱包装为主的现状,基于CPS理论,对重型机电产品完整包装解决方案
商用飞机的自主研发需要科学系统的技术经济分析方法解决技术先进性、研制成本以及使用经济性三者之间的矛盾。因此需要综合考虑市场竞争、技术性能、经济环境等多方面的因素
设施栽培在蔬菜上早已经成功使用,果树生产上辽宁、山东也有成功经验,但山西还没有好的先例.
色彩在生活中的应用十分广泛,不仅能够美化环境,同时还能调节心情。在人们日常居住的生活空间内容,色彩的运用更是十分的讲究。随着人们对精神生活的追求程度增加,现代建筑室