论文部分内容阅读
近年来,随着互联网的迅猛发展和移动设备的大量普及,尤其是大数据时代的到来,越来越多的数据需要处理,其中文本数据占据着越来越大的比重,如何对大规模文本数据进行高效地存储和索引成为一个新的挑战。面对这一挑战,主要有两种解决思路:一种是对数据进行空间上的压缩,使得在相同存储资源的情况下,能存储和处理更多的数据;另一种是设计更加高效的外存算法和数据结构,把数据放在外存,每次只读取需要的部分到内存中进行处理,确保高效的I/O操作。字符串词典索引作为文本索引的基础,其应用无所不在,如地理信息系统、网络搜索引擎、信息检索系统等。大数据时代大规模的文本数据同样对字符串词典索引提出了新的挑战。本文从空间压缩和外存索引两方面对字符串词典索引算法进行研究,其主要研究工作如下:(1)针对现有的字符串词典索引空间占用普遍较大的问题,提出了一种新的字符串词典压缩索引S-trie,实现了字符串词典索引的压缩,即在对原始字符串词典数据进行索引以支持快速查找的同时,实现了对原始字符串词典数据的压缩。通过实验对比,证明了S-trie在空间性能方面的优势,S-trie的压缩比达到原始数据的30%。(2)针对外存磁盘环境,对S-trie进行改进,提高数据的本地引用,使其在外存环境下具有高效的I/O操作,提出了一种字符串词典外存压缩索引SB-trie。SB-trie继承了S-trie空间占用小的优点,同时具有良好的本地引用性能,可以高效地工作在外存磁盘环境。实验表明,SB-trie在空间占用上优于现有的索引,同时在数据量较大的情况下,也具有良好的查找时间性能。