分布式环境下的空间文本大数据分析

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:galatea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着移动互联网的快速发展,基于位置服务的应用也在不断地推广。典型的相关应用包括地图导航应用、外卖点餐应用及社交应用等,这些应用产生了海量的空间文本数据(比如,每个用户发表的微博都有空间坐标数据和文本数据两部分;每个餐馆都有空间坐标数据和文本标签数据两部分)。同时,这些应用进一步衍生了多种基于空间文本数据的查询需求,常见的空间文本查询实例如下:(1)在餐饮推荐类应用中,基于用户的当前位置查找附近100米内包含“烧烤”文本标签的餐馆;(2)在社交应用中,为用户推荐与其兴趣标签相似且空间距离相近的10个陌生好友。可以发现,基于空间文本数据的查询分析在生活当中有着非常大的实际应用价值。但是,随着空间文本数据规模的迅速增长,传统的基于单机环境实现的分析技术难以为用户同时提供低延时和高吞吐量的服务。随着基于内存的分布式计算平台Spark的流行开来,有许多研究工作基于该平台探索了海量数据场景下的分布式解决方案。相对于基于Hadoop平台的解决方案,基于Spark平台的解决方案可以达到更低的延时和更高的吞吐量。因此,针对传统单机方案的性能问题,本文将基于Spark平台研究分布式环境下的空间文本大数据分析问题。简要来说,文章首先提出了一套基于Spark平台实现的空间文本数据分析框架。该框架通过扩展Spark SQL模块的查询接口、语法解析及执行引擎,以对多种空间文本查询进行支持;同时,该框架在执行引擎层结合了面向空间文本数据的两层索引框架(包括全局索引和局部索引)对查询进行优化,其中存储在主节点的全局索引可以高效地过滤出可能存在候选解的局部分区,对于过滤得到的各个局部分区,存储在对应的从节点上的局部索引将对查询进行进一步处理。随后,针对四种典型的空间文本查询(包括布尔范围查询、布尔k最近邻查询、近似范围查询及空间文本相似连接查询等),文章将分别提出多种索引结构(包括全局索引结构和局部索引结构)对查询进行优化。基于两层索引架构和所提出的索引结构,文章进一步探讨了四种查询对应的分布式查询算法,通过两阶段的过滤策略实现了较好的性能。最后,文章在真实的海量数据集上进行了充分的实验对比,通过实验分析进一步说明了文章提出的算法具有较好的性能优势。
其他文献
超级电容器因为功率密度高,充放电速率超快并且理论使用寿命远高于二次电池等吸引了越来越多的关注,人们越来越重视超级电容器尤其是可穿戴超级电容器设备的设计开发,在这些
为满足某型号导弹长时间超声速巡航飞行战术技术指标要求,论文采用理论推导、仿真分析和试车台试验三者相结合的方法,围绕流量可调固体冲压火箭发动机的推力调节控制技术开展
测试技术中传感器信号放大技术一直是业内研究的主要方向,对于传感器检测信号核心部件响应单元效率提升的研究是很有必要的。因此本文建立了一种新的非对称变截面悬臂梁机电
果糖激酶(Fructokinase,FRK)能磷酸化果糖,是果糖分解代谢途径中很关键的一类酶,广泛存在于细菌和动植物中。研究发现,植物FRK家族基因在其正常生长发育和逆境适应中都具有重
LIPS-300离子推力器是我国新型高功率栅极离子推力器,其束流引出装置采用30cm直径三栅极组件结构设计。试验结果表明,三栅极结构设计能够满足推力器各项性能指标要求。但还存
刺丝囊是刺胞动物门(Cnidaria)所特有的细胞器,也是刺胞动物的分类依据。本文以刺胞动物门水螅水母类(Hydroidomedusa)的帽铃水母(Tiaricoddon coeruleus)和细小多管水母(Aeq
北京,地处华北平原,是中国历史上重要的五朝古都,自明清以来成为中国的政治文化中心。进入近代,封闭的北京城被迫打开,西方列强纷纷于东交民巷建立使馆区,从此开启了北京地区中西方建筑文化交流融合的过程。随着使馆区的兴建,银行建筑第一次出现在北京,而后由于民族资本主义的发展,华资银行逐渐增多。从此,银行逐渐代替了当铺、钱庄、票号等传统金融机构。作为新式金融的实物载体,近代银行建筑自诞生之日便以高质量的设计
下凹式绿地是“海绵城市”建设雨水利用技术措施之一,广泛应用于城市道路周围及小区以及公园内等。其利用设计的下凹式空间充分收集雨水,增加了雨水下渗需要时间和下渗水量,
以喷注混合与燃烧稳焰作为主要研究对象,研究超声速燃烧室的典型的流场结构。基于LES程序数值模拟,分析射流凹腔相互作用机理与并联突扩凹腔燃烧流场的燃烧特性。首先,基于LE
时态数据是无处不在的,现如今海量的时态数据正在被生成。海量时态数据的管理非常重要,并且具有挑战性。面对海量的时态数据,分布式系统是一个不错的选择。然而,现有的分布式