论文部分内容阅读
自从W3C在1998年二月发布XML标准以来,XML这种数据格式以其容易掌握、结构清晰等优点得到广泛认可,并在很多商业和研究领域得到了越来越多的应用。随着XML数据的增多,人们开始考虑如何能够在这块新的数据海洋中快速发现用户所需要的信息,因此基于XML数据的信息检索也就成为了近年来研究的热点。 从目前的XML信息检索系统的发展来看,绝大部分研究者的主要精力都放在了检索系统的核心——也就是检索模型等的研究上,而用户接口作为一个系统与用户进行交互的唯一通道,在近年的研究中却鲜有提及。 从目前计算机应用的发展趋势来看,图形化界面设计广为接受,用户接口设计的优劣也成为影响系统实际使用的重要环节。此外,由于用户接口在其设计和实现上可以相对独立于检索系统的核心部分,因此也可以考虑把某些XML检索中的独特问题放在用户接口的层面来处理,比如XML元素的重叠过滤,文档聚类展现时的文档排序等,这样不仅便于具体的系统实现,而且可以形成一个可在不同XML检索系统上可复用的用户接口模块,这显然也符合当前的软件设计的发展趋势。 本文是对XML检索系统中用户接口技术的研究和探索。对当前的几个主要系统进行了调研,总结了目前XML结果展现的几种主要方式:XML元素序列(Elements List),文档聚类(Aggregate by documents)以及最佳入口(Best entrypoint),同时发现目前影响结果展现的两个主要问题——元素重叠和文档聚类模式下的文档排序都还没有得到很好的解决,而这两个问题对系统结果的优劣都会有非常明显的影响。对此,在独立于系统检索模型的基础上,对这两个问题进行了研究,分别提出了基于相关假设的元素重叠过滤方法和基于虚拟查准-查全的文档排序方法,其中前者在实验中亦取得良好的效果,也证明了在用户接口的层面解决类似问题的现实可行性。 此外,也探讨了XML检索系统在用户界面设计上的一些独特之处和应遵循的设计原则,对Lemur/Indri的原用户接口进行了重新设计和实现,以更加适应一般用户的使用习惯。