分布式地理模型运行环境执行引擎实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：liuqingsong835200

【摘要】

：

现今，随着万维网(WorldWideWeb)的快速发展，非结构化数据大量涌现。多样化的数据检索任务向云环境中海量非结构化数据上的索引技术提出了迫切要求。有别于传统的结构化小规模数

【作者】

：

毛洪强

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2012年期

【关键词】

：

非结构化数据云计算环境分片位图索引缺失符号

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现今，随着万维网(WorldWideWeb)的快速发展，非结构化数据大量涌现。多样化的数据检索任务向云环境中海量非结构化数据上的索引技术提出了迫切要求。有别于传统的结构化小规模数据，海量非结构化数据具有规模庞大(large-scale)、含有大量文本内容(heavy-text)以及与结构化数据混合(partiallystructured)等特点。由于数据内容和存储模型上的本质区别，传统关系数据库管理系统中成熟的索引技术无法被直接应用于云数据管理系统。　　本文以云计算技术的成熟发展为契机，着重讨论了云环境中大规模非结构化数据上的辅助索引机制的设计与实现。根据数据内容和检索条件，本文将非结构化数据分为数值类型数据与长文本类型数据两类，并针对这两种类型的非结构化数据设计了不同的索引机制与检索算法。具体而言：　　●通过对比分析云环境中辅助索引的两种基本逻辑结构--集中式方案与分布式方案，在吸收二者的优势并合理规避二者缺点的基础上，本文提出了具有良好可扩展性的分片位图索引(RegionalBitmapIndex)，从而对数值类型属性上的多样化检索任务提供了良好的支持。得益于位图在逻辑运算方面的优势，本方法在复合的查询条件上表现优秀。　　●对于非结构化数据中的长文本数据，本文提出了分布式轮排索引(DistributedPermutermIndex)来对以文本的包含关系为条件的查询请求提供高效的支持。基于分布式轮排索引的检索算法能够在与查询请求的长度呈线性关系的时间复杂度内返回检索结果。通过进一步扩展，本文提出的基于分布式轮排索引的逆向搜索算法能够在保证查询的线性时间效率的前提下对含有缺失信息的查询请求进行支持。　　在真实数据上进行的实验表明，本文提出的索引机制能够在有效利用分布式计算资源的基础上显著提升海量非结构化数据管理系统的查询响应速度和吞吐量。

其他文献

汉语相似词的自动获取方法

相似词是自然语言处理领域重要的知识资源,在查询扩展、机器翻译、自动摘要、问答系统中都有广泛的应用。本文对汉语相似词的自动获取进行了系统的研究,主要使用基于大规模语

学位

汉语相似词自动获取语料库集成方法句子相似度

程序存储局部性调优和分析方法的研究

随着多核技术、云计算技术的发展，我们常常会面临一台多核机上运行若干组不同的计算任务的情景。在这样的情景下，内存、高速缓存、总线等存储相关的竞争会对计算性能产生较大影

学位

存储局部性高速缓存失效率曲线虚拟机云计算

基于不确定数据的多维分析方法的设计与实现

随着信息时代的到来,在各式各样的现实应用中,由于度量误差、数据不完整性等原因,产生了大量的不确定数据,不确定数据扮演着十分重要的角色。同时,数据仓库与OLAP(On-Line An

学位

不确定数据多维存储数据仓库立方体计算倒排索引

基于有色网的构件系统及其组装的形式化建模

近年来，随着计算机硬件和软件的快速发展，使得软件工程面临着严峻的挑战：软件系统变得越来越复杂，大大增加了开发和维护的难度。如何更快地开发出满足需求的应用系统已经成为软件

学位

构件系统形式化建模有色Petri网软件复用性

基于可信计算平台的可信性动态度量研究

为了解决PC机自身结构缺陷，改变传统安全技术(如防火墙、杀毒软件和入侵检测系统等)在应对如今与日俱增的信息安全问题情形下的被动局面，从芯片、硬件结构和操作系统等方面综合

学位

信息安全可信动态度量计算平台系统架构交互式马尔可夫链模型

词语领域性分析方法研究及应用

随着计算机网络的快速发展,各个领域的信息呈现指数级增长的趋势。领域性分析是知识构建、语义理解、文本分类、数据发掘等研究的基础,具有非常重要的意义。本文从词的层次上

学位

词语领域性分析领域部件词链接分析话题模型文本分类

MapReduce推测执行策略及倾斜数据处理优化

MapReduce是应用于大规模数据处理的并行计算框架。从2004年Google提出该框架开始,MapReduce逐渐被越来越多的互联网公司和研究机构应用于日志分析、数据挖掘等领域。MapRedu

学位

数据处理并行计算管理程序程序设计

溯源技术在生态环境观测传感网工作流中的研究与实现

用于生态环境观测的无线传感器网络已经在许多不同类型的生态系统中得到广泛应用。这些系统普遍采用Sensor Web体系构建，以消除由于生态系统之间以及内部传感器接口和协议的异

学位

生态环境观测无线传感器网络科学工作流溯源技术

基于集成学习的钓鱼网页检测系统

网络钓鱼(Phishing)是一种在线欺诈行为，它利用钓鱼网页仿冒正常合法的网页，窃取用户敏感信息从而达到非法盈利目的。随着互联网的蓬勃发展，网络钓鱼这种以互联网为载体的犯罪行

学位

钓鱼网页特征提取集成学习基础分类器

基于智能手机的大屏幕指点交互技术研究

随着技术的发展，大幅面、高分辨率的显示设备在我们的生活中越来越常见，这些显示设备以其大数据集显示能力在各个科研领域都得到了广泛的应用，但是目前仍缺乏针对这种大型显示设

学位

智能手机指点交互多通道融合控制方式

分布式地理模型运行环境执行引擎实现

与本文相关的学术论文