论文部分内容阅读
大数据时代的来临,使得数据量、数据复杂度和数据的处理方式发生了很大的变化,也给如何高效地、安全地从海量数据中检索到用户所关心的信息提出了挑战。全文检索技术的出现是为了解决非结构化数据的检索需求,其核心是全文索引模型。传统的全文索引模型在进行海量数据索时,往往达不到理想的时空效率,并且其动态性、安全性欠佳。 为了提高海量数据下全文索引模型的检索效率,本文基于二元动态后继树索引模型(Streamline Dynamic Successive-Trees,SDST),提出了一个树高可变的动态后继树索引模型(Variable-Height Streamline Dynamic Successive-Trees,VHSDST),并给出其创建、检索与更新算法。实验表明,VHSDST在海量数据检索方面具有较高的优势。 为了进一步提升VHSDST的检索效率,研究了影响VHSDST检索效率的因素,提出了一个滑动窗口检索算法(Sliding Window Retrieval Algorithm,SWRA)。实验表明,该算法使得VHSDST在检索效率方面有了进一步提升。 为了提高全文索引模型的空间效率,研究了 SDST的存储结构、压缩策略和编码方式,提出了一个具有压缩特性的支持不解压查询技术的二元动态后继树压缩索引模型(Compressed Improved Streamline Dynamic Successive-Trees,CISDST),并给出其创建、检索与更新算法。实验表明,CISDST与倒排文件的压缩效率基本一致,但有较高的检索效率。 为了应对CISDST在安全性方面的需求,研究了CISDST加密需求和密文索引加密策略,提出了一个具有较强安全性的密文压缩索引模型(Encrypt and Compressed Improved Streamline Dynamic Successive-Trees,ECISDST),实验表明,ECISDST空间效率较高,具有一定的实用性。