论文部分内容阅读
现今,随着万维网(WorldWideWeb)的快速发展,非结构化数据大量涌现。多样化的数据检索任务向云环境中海量非结构化数据上的索引技术提出了迫切要求。有别于传统的结构化小规模数据,海量非结构化数据具有规模庞大(large-scale)、含有大量文本内容(heavy-text)以及与结构化数据混合(partiallystructured)等特点。由于数据内容和存储模型上的本质区别,传统关系数据库管理系统中成熟的索引技术无法被直接应用于云数据管理系统。 本文以云计算技术的成熟发展为契机,着重讨论了云环境中大规模非结构化数据上的辅助索引机制的设计与实现。根据数据内容和检索条件,本文将非结构化数据分为数值类型数据与长文本类型数据两类,并针对这两种类型的非结构化数据设计了不同的索引机制与检索算法。具体而言: ●通过对比分析云环境中辅助索引的两种基本逻辑结构--集中式方案与分布式方案,在吸收二者的优势并合理规避二者缺点的基础上,本文提出了具有良好可扩展性的分片位图索引(RegionalBitmapIndex),从而对数值类型属性上的多样化检索任务提供了良好的支持。得益于位图在逻辑运算方面的优势,本方法在复合的查询条件上表现优秀。 ●对于非结构化数据中的长文本数据,本文提出了分布式轮排索引(DistributedPermutermIndex)来对以文本的包含关系为条件的查询请求提供高效的支持。基于分布式轮排索引的检索算法能够在与查询请求的长度呈线性关系的时间复杂度内返回检索结果。通过进一步扩展,本文提出的基于分布式轮排索引的逆向搜索算法能够在保证查询的线性时间效率的前提下对含有缺失信息的查询请求进行支持。 在真实数据上进行的实验表明,本文提出的索引机制能够在有效利用分布式计算资源的基础上显著提升海量非结构化数据管理系统的查询响应速度和吞吐量。