论文部分内容阅读
随着信息技术的日益发展,信息资源呈现出爆炸性增长的态势。数字资源的急剧增长导致有效数据通常被淹没在信息海洋之中,单靠人工或传统查询工具将很难迅速定位所需信息。由于信息检索技术可从大规模信息系统中快速、准确、全面地获取有效信息,因此它被认为是解决上述问题的最佳途径。现有研究围绕着提高存储系统智能化程度、增强异构信息检索能力和提升查询结果相关性等方面展开,但是存储与查询功能的相对独立使得存储系统很难理解所存内容、并依据感知到的信息进行查询优化操作。为了将信息检索领域中的相关技术移植并应用于存储领域,在研究内容感知存储系统架构的基础上,探讨了该系统中的信息组织、索引和检索机制,从系统结构角度提供了一种有效融合存储与检索功能的整体解决方案。为解决存储系统缺乏内容感知能力的问题,设计了一种跨越存储栈的信息扩展与传递机制。该机制根据应用层的具体需求抽取上层语义信息并作为扩展信息保存,然后在传统的数据I/O通道上扩展元数据I/O通道实现扩展信息的传递,存储系统通过解析此类扩展信息获取语义内容,进而实现在存储系统内部感知和使用上层信息以优化系统整体性能的目的。在该扩展传递机制的基础上设计并实现了内容感知网络存储原型系统。为充分利用存储系统感知到的各类信息,为使用者提供高效、便捷的查询服务,提出了内容感知网络存储系统中的两阶段检索策略。由于存储系统中的查询需求主要来自系统管理员对元数据的查询,以及普通用户对关键字内容的查询。这两类查询通过对元数据和关键字分别建立索引来提升系统查询速度,但存储系统自身所具备的特性并没有被用于优化上述查询过程。所提出的两阶段检索策略将基于元数据和关键字的查询与底层存储系统的块相似性查询相结合,提升了系统的整体查询效率。为有效衡量索引优化操作对系统性能的影响,提出了基于分级存储的索引分割机制及开销模型。随着存储系统中信息量的不断增大索引所消耗的空间也在同步增长,有些索引在生成之后几乎不会被检索到,因此并非所有索引都拥有相同的访问频率。据此索引优化算法按照访问频率对索引进行分割和分级存储,将不常用的索引存放到低速存储设备上以节约成本,并分析了索引分割对查询命中率、索引空间开销以及查询时间所造成的影响。为满足用户对于相似性查询的需求,提出了基于内容哈希的数据相关图构建方法。由于存储系统通常采用层次结构来组织和管理数据,这种层次化设计思想通过标准的接口在各层间传递特定的信息,它隐藏了每一层所不必关心的信息,但也约束和限制了扩展信息在各个层次间的自由流动。所提出的数据相关图构建方法以存储系统中的重复数据块为桥梁,通过打破层次壁垒在多层信息之间建立起联系,生成具备全局特征的完整数据相关图,为将信息检索领域的相关理论引入存储系统奠定了基础。为解决用户查询请求过于宽泛或精细时无法得到预期查询结果的问题,结合数据相关图对两阶段查询机制中的排序算法进行改进,提出了块相似性度量算法。该算法将信息检索中网页排序算法的核心思想引入存储系统,以重复数据删除计算所得到的重复数据块作为生成数据相关图和衡量数据相关度的依据,改进了现有的相似查询和相关度计算方法。该解决方案反映了数据的内部结构特征,降低了查询失效率、提高了查全率。从上述多个方面开展深入研究,经过模型建立、算法生成、理论分析、实验验证等步骤,将内容感知技术和信息检索关键技术引入到存储系统中,提升了存储系统的智能化程度和信息检索能力。