分布式地理模型运行环境执行引擎实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:liuqingsong835200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今,随着万维网(WorldWideWeb)的快速发展,非结构化数据大量涌现。多样化的数据检索任务向云环境中海量非结构化数据上的索引技术提出了迫切要求。有别于传统的结构化小规模数据,海量非结构化数据具有规模庞大(large-scale)、含有大量文本内容(heavy-text)以及与结构化数据混合(partiallystructured)等特点。由于数据内容和存储模型上的本质区别,传统关系数据库管理系统中成熟的索引技术无法被直接应用于云数据管理系统。  本文以云计算技术的成熟发展为契机,着重讨论了云环境中大规模非结构化数据上的辅助索引机制的设计与实现。根据数据内容和检索条件,本文将非结构化数据分为数值类型数据与长文本类型数据两类,并针对这两种类型的非结构化数据设计了不同的索引机制与检索算法。具体而言:  ●通过对比分析云环境中辅助索引的两种基本逻辑结构--集中式方案与分布式方案,在吸收二者的优势并合理规避二者缺点的基础上,本文提出了具有良好可扩展性的分片位图索引(RegionalBitmapIndex),从而对数值类型属性上的多样化检索任务提供了良好的支持。得益于位图在逻辑运算方面的优势,本方法在复合的查询条件上表现优秀。  ●对于非结构化数据中的长文本数据,本文提出了分布式轮排索引(DistributedPermutermIndex)来对以文本的包含关系为条件的查询请求提供高效的支持。基于分布式轮排索引的检索算法能够在与查询请求的长度呈线性关系的时间复杂度内返回检索结果。通过进一步扩展,本文提出的基于分布式轮排索引的逆向搜索算法能够在保证查询的线性时间效率的前提下对含有缺失信息的查询请求进行支持。  在真实数据上进行的实验表明,本文提出的索引机制能够在有效利用分布式计算资源的基础上显著提升海量非结构化数据管理系统的查询响应速度和吞吐量。
其他文献
相似词是自然语言处理领域重要的知识资源,在查询扩展、机器翻译、自动摘要、问答系统中都有广泛的应用。本文对汉语相似词的自动获取进行了系统的研究,主要使用基于大规模语
随着多核技术、云计算技术的发展,我们常常会面临一台多核机上运行若干组不同的计算任务的情景。在这样的情景下,内存、高速缓存、总线等存储相关的竞争会对计算性能产生较大影
随着信息时代的到来,在各式各样的现实应用中,由于度量误差、数据不完整性等原因,产生了大量的不确定数据,不确定数据扮演着十分重要的角色。同时,数据仓库与OLAP(On-Line An
近年来,随着计算机硬件和软件的快速发展,使得软件工程面临着严峻的挑战:软件系统变得越来越复杂,大大增加了开发和维护的难度。如何更快地开发出满足需求的应用系统已经成为软件
为了解决PC机自身结构缺陷,改变传统安全技术(如防火墙、杀毒软件和入侵检测系统等)在应对如今与日俱增的信息安全问题情形下的被动局面,从芯片、硬件结构和操作系统等方面综合
随着计算机网络的快速发展,各个领域的信息呈现指数级增长的趋势。领域性分析是知识构建、语义理解、文本分类、数据发掘等研究的基础,具有非常重要的意义。本文从词的层次上
MapReduce是应用于大规模数据处理的并行计算框架。从2004年Google提出该框架开始,MapReduce逐渐被越来越多的互联网公司和研究机构应用于日志分析、数据挖掘等领域。MapRedu
用于生态环境观测的无线传感器网络已经在许多不同类型的生态系统中得到广泛应用。这些系统普遍采用Sensor Web体系构建,以消除由于生态系统之间以及内部传感器接口和协议的异
网络钓鱼(Phishing)是一种在线欺诈行为,它利用钓鱼网页仿冒正常合法的网页,窃取用户敏感信息从而达到非法盈利目的。随着互联网的蓬勃发展,网络钓鱼这种以互联网为载体的犯罪行
随着技术的发展,大幅面、高分辨率的显示设备在我们的生活中越来越常见,这些显示设备以其大数据集显示能力在各个科研领域都得到了广泛的应用,但是目前仍缺乏针对这种大型显示设