分布式环境下的空间文本大数据分析

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：galatea

【摘要】

：

近年来,随着移动互联网的快速发展,基于位置服务的应用也在不断地推广。典型的相关应用包括地图导航应用、外卖点餐应用及社交应用等,这些应用产生了海量的空间文本数据(比如

【作者】

：

徐阳

【出处】

：

上海交通大学

【发表日期】

：

2004年期

【关键词】

：

空间文本查询分析分布式计算 Spark平台索引技术

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着移动互联网的快速发展,基于位置服务的应用也在不断地推广。典型的相关应用包括地图导航应用、外卖点餐应用及社交应用等,这些应用产生了海量的空间文本数据(比如,每个用户发表的微博都有空间坐标数据和文本数据两部分;每个餐馆都有空间坐标数据和文本标签数据两部分)。同时,这些应用进一步衍生了多种基于空间文本数据的查询需求,常见的空间文本查询实例如下:(1)在餐饮推荐类应用中,基于用户的当前位置查找附近100米内包含“烧烤”文本标签的餐馆;(2)在社交应用中,为用户推荐与其兴趣标签相似且空间距离相近的10个陌生好友。可以发现,基于空间文本数据的查询分析在生活当中有着非常大的实际应用价值。但是,随着空间文本数据规模的迅速增长,传统的基于单机环境实现的分析技术难以为用户同时提供低延时和高吞吐量的服务。随着基于内存的分布式计算平台Spark的流行开来,有许多研究工作基于该平台探索了海量数据场景下的分布式解决方案。相对于基于Hadoop平台的解决方案,基于Spark平台的解决方案可以达到更低的延时和更高的吞吐量。因此,针对传统单机方案的性能问题,本文将基于Spark平台研究分布式环境下的空间文本大数据分析问题。简要来说,文章首先提出了一套基于Spark平台实现的空间文本数据分析框架。该框架通过扩展Spark SQL模块的查询接口、语法解析及执行引擎,以对多种空间文本查询进行支持;同时,该框架在执行引擎层结合了面向空间文本数据的两层索引框架(包括全局索引和局部索引)对查询进行优化,其中存储在主节点的全局索引可以高效地过滤出可能存在候选解的局部分区,对于过滤得到的各个局部分区,存储在对应的从节点上的局部索引将对查询进行进一步处理。随后,针对四种典型的空间文本查询(包括布尔范围查询、布尔k最近邻查询、近似范围查询及空间文本相似连接查询等),文章将分别提出多种索引结构(包括全局索引结构和局部索引结构)对查询进行优化。基于两层索引架构和所提出的索引结构,文章进一步探讨了四种查询对应的分布式查询算法,通过两阶段的过滤策略实现了较好的性能。最后,文章在真实的海量数据集上进行了充分的实验对比,通过实验分析进一步说明了文章提出的算法具有较好的性能优势。

其他文献

以三聚氰胺泡沫为基底的柔性可压缩超级电容器的制备及其性能的研究

超级电容器因为功率密度高,充放电速率超快并且理论使用寿命远高于二次电池等吸引了越来越多的关注,人们越来越重视超级电容器尤其是可穿戴超级电容器设备的设计开发,在这些

学位

三聚氰胺泡沫聚吡咯石墨烯超级电容器柔性可压缩

燃气流量可调固冲发动机推力控制研究

为满足某型号导弹长时间超声速巡航飞行战术技术指标要求,论文采用理论推导、仿真分析和试车台试验三者相结合的方法,围绕流量可调固体冲压火箭发动机的推力调节控制技术开展

学位

流量可调推力控制固冲发动机推力系统模型BP神经网络建模自适应RBF神经网络控制

非对称机电变截面悬臂梁力学特性研究

测试技术中传感器信号放大技术一直是业内研究的主要方向,对于传感器检测信号核心部件响应单元效率提升的研究是很有必要的。因此本文建立了一种新的非对称变截面悬臂梁机电

学位

非对称梁变截面机电

水稻果糖激酶家族基因的表达及功能初步分析

果糖激酶(Fructokinase,FRK)能磷酸化果糖,是果糖分解代谢途径中很关键的一类酶,广泛存在于细菌和动植物中。研究发现,植物FRK家族基因在其正常生长发育和逆境适应中都具有重

学位

水稻OsFRK家族基因果糖激酶CRISPR/Cas9表型分析

离子推力器栅极组件热变形在线摄像测量系统研究

LIPS-300离子推力器是我国新型高功率栅极离子推力器,其束流引出装置采用30cm直径三栅极组件结构设计。试验结果表明,三栅极结构设计能够满足推力器各项性能指标要求。但还存

学位

离子推力器栅极热变形栅极热态间距摄像测量学远距显微镜亚像素定位

水螅水母类（Hydroidomedusa）刺丝囊形态的发生研究

刺丝囊是刺胞动物门(Cnidaria)所特有的细胞器,也是刺胞动物的分类依据。本文以刺胞动物门水螅水母类(Hydroidomedusa)的帽铃水母(Tiaricoddon coeruleus)和细小多管水母(Aeq

学位

水螅水母帽铃水母细小多管水母刺丝囊刺丝囊形态发生

北京地区近代银行建筑研究

北京,地处华北平原,是中国历史上重要的五朝古都,自明清以来成为中国的政治文化中心。进入近代,封闭的北京城被迫打开,西方列强纷纷于东交民巷建立使馆区,从此开启了北京地区中西方建筑文化交流融合的过程。随着使馆区的兴建,银行建筑第一次出现在北京,而后由于民族资本主义的发展,华资银行逐渐增多。从此,银行逐渐代替了当铺、钱庄、票号等传统金融机构。作为新式金融的实物载体,近代银行建筑自诞生之日便以高质量的设计

学位

北京地区近代银行建筑形式风格特征

垂直土壤夹砂层侧向防渗效果的试验与模拟研究

下凹式绿地是“海绵城市”建设雨水利用技术措施之一,广泛应用于城市道路周围及小区以及公园内等。其利用设计的下凹式空间充分收集雨水,增加了雨水下渗需要时间和下渗水量,

学位

下凹绿地湿润锋夹砂层HYDRUS土壤含水量海绵城市

超声速凹腔稳焰燃烧室流场的大涡模拟

以喷注混合与燃烧稳焰作为主要研究对象,研究超声速燃烧室的典型的流场结构。基于LES程序数值模拟,分析射流凹腔相互作用机理与并联突扩凹腔燃烧流场的燃烧特性。首先,基于LE

学位

大涡模拟并联凹腔突扩型燃烧室声速燃烧混合LES/RANS

分布式环境下时态大数据的分析研究

时态数据是无处不在的,现如今海量的时态数据正在被生成。海量时态数据的管理非常重要,并且具有挑战性。面对海量的时态数据,分布式系统是一个不错的选择。然而,现有的分布式

学位

时态大数据时态查询分布式内存计算二级索引分区方法Spark框架

分布式环境下的空间文本大数据分析

其他学术论文