XML信息检索中用户接口的研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:liuxing_001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从W3C在1998年二月发布XML标准以来,XML这种数据格式以其容易掌握、结构清晰等优点得到广泛认可,并在很多商业和研究领域得到了越来越多的应用。随着XML数据的增多,人们开始考虑如何能够在这块新的数据海洋中快速发现用户所需要的信息,因此基于XML数据的信息检索也就成为了近年来研究的热点。  从目前的XML信息检索系统的发展来看,绝大部分研究者的主要精力都放在了检索系统的核心——也就是检索模型等的研究上,而用户接口作为一个系统与用户进行交互的唯一通道,在近年的研究中却鲜有提及。  从目前计算机应用的发展趋势来看,图形化界面设计广为接受,用户接口设计的优劣也成为影响系统实际使用的重要环节。此外,由于用户接口在其设计和实现上可以相对独立于检索系统的核心部分,因此也可以考虑把某些XML检索中的独特问题放在用户接口的层面来处理,比如XML元素的重叠过滤,文档聚类展现时的文档排序等,这样不仅便于具体的系统实现,而且可以形成一个可在不同XML检索系统上可复用的用户接口模块,这显然也符合当前的软件设计的发展趋势。  本文是对XML检索系统中用户接口技术的研究和探索。对当前的几个主要系统进行了调研,总结了目前XML结果展现的几种主要方式:XML元素序列(Elements List),文档聚类(Aggregate by documents)以及最佳入口(Best entrypoint),同时发现目前影响结果展现的两个主要问题——元素重叠和文档聚类模式下的文档排序都还没有得到很好的解决,而这两个问题对系统结果的优劣都会有非常明显的影响。对此,在独立于系统检索模型的基础上,对这两个问题进行了研究,分别提出了基于相关假设的元素重叠过滤方法和基于虚拟查准-查全的文档排序方法,其中前者在实验中亦取得良好的效果,也证明了在用户接口的层面解决类似问题的现实可行性。  此外,也探讨了XML检索系统在用户界面设计上的一些独特之处和应遵循的设计原则,对Lemur/Indri的原用户接口进行了重新设计和实现,以更加适应一般用户的使用习惯。
其他文献
在高校的日常管理工作中,排课系统管理是其中的重要组成部分,是学校教学管理中最重要、最繁重的工作之一。排课表问题普遍存在于大中小各级学校中,这些学校,无论规模大小、学科多
随着科学技术的不断进步,社会发展步入知识经济时代。信息技术的深入发展和广泛应用,一方面使得海量的信息资源广泛存储于计算机和互联网当中,形成潜在知识宝库;另一方面,巨大的
飞行课目的仿真与飞行数据的智能评估预测在国内外的飞行训练中应用的越来越广泛,本文采用DirectX技术,在飞行训练智能评估系统的基础上,建立某型飞机3D模型,设计实现了某型飞机
现代信息技术的发展和社会信息化水平的提高对于软件功能、性能的要求越来越高,如何利用非常有限的时间和资源保证软件质量成为企业关注的重点。软件测试做为保证软件质量的关
随着各种信息处理技术的发展,人们可以访问的数字资源越来越多,如何从海量数据中方便快捷地得到人们所需要的信息成为人们非常关心的问题。  目前的信息服务还处于一种基于关
Deep Web是Web数据管理研究面临的一个新的领域,集成系统将收集不同Web数据源返回的查询结果并加以集成,以提供给用户一个统一的视图。为了保证集成后的查询结果具有很高的用户
随着物种基因组测序的完成,揭示基因组序列所包含和隐藏的生物信息,乃是一段时间内生物学领域关注的焦点。其中,对基因表达及其功能的探索和研究是至关重要的一步。那么,各种相关
当前,高性能计算已经全面进入“千万亿次计算”时代。根据最新的Top500列表显示,理论峰值1Petaflops以上的超级计算机已经达到55台。面向P级、E级计算,应用数学算法的设计应该考
无线多跳网络包括无线Ad Hoc网络、无线Mesh网络和无线传感器网络,其应用场景非常广泛,如应急通信、防灾减灾、环境监测等。无线多跳网络作为一种新兴的无线网络技术,还可以与传
随着互联网与应用的快速蓬勃发展,网络带宽和服务复杂度不断增长,从路由查找到入侵检测等数据包处理技术面临性能挑战。多核处理器可以通过数据包并行处理有效提升数据包处理速