论文部分内容阅读
随着网络的飞速发展,大量文献资料的堆积,如何快速有效地获取自己需要的文档数据,已经成为了迫切需要解决的问题之一。对于现今海量、高维的文档数据,传统的索引和检索技术已不能满足用户快速的检索需求,于是相对于注重综合检索结果的普通文档检索技术,提出了注重速度的哈希法快速文档检索技术。快速相似性检索技术是针对大规模文档数据的检索效率问题而产生的技术,其牺牲了检索精度从而使得检索速度大幅度提高的特性在海量文档检索应用中展现了良好的应用价值。其通过求解高维空间映射到低维空间的流形问题从而降低文档的维数,并利用高效率的哈希技术加速检索的匹配过程,使得用户能够快速定位自己需求的文档。针对快速相似性检索技术在建立索引的过程中会耗费大量计算资源及未充分考虑文档信息等问题,本文沿用语义哈希的思想,结合谱哈希索引技术,利用Markov网络强化文档间关系来获得更好的高维特征降维后的内嵌子空间,并通过剪枝技术减少索引技术中耗费的时间和空间复杂度,从而使得高维特征索引和检索能够快速和有效得执行。