论文部分内容阅读
时间是信息空间中很重要的一个维度。大部分的网页中均包含时态信息,许多Web查询也包含时态查询信息。这些时态信息在Web信息检索和网页聚类中具有很重要的作用。将时态信息融入信息检索技术中是搜索引擎发展的潮流和趋势。然而目前主流的搜索引擎并没有充分考虑到网页中包含的时态信息,特别是在结果网页排序和网页聚类中忽略了时态信息的作用。因此,研究基于时态语义的Web信息检索技术对于提高搜索引擎的搜索效果、推进Web信息检索技术的发展具有重要的研究意义。利用网页中时态信息进行网页排序和网页聚类是近年来研究的热点。在网页排序方面,传统的信息检索主要利用网页文本与查询相似度进行排序。然而,基于文本的检索将用户时态查询部分视为普通文本进行处理,而忽略了网页中的内容时间与关键词之间的联系。而在网页聚类方面,传统的算法主要根据文本中同时出现的短语进行聚类,而没有考虑到同时将网页中的时态信息呈现给用户,满足用户多样的需求。如果在网页排序和聚类研究中充分利用时态信息,则可以有效提高搜索引擎的性能和用户体验。本文围绕时态信息检索中的若干关键技术开展研究,重点研究了基于时态语义的网页排序技术和基于主题的时态网页聚类技术。本文的主要贡献为:(1)通过分析网页中关键词和内容时间之间的联系,设计了一个<关键词,内容时间>映射算法。该算法将网页中每个关键词找到与其对应的内容时间。对于网页中的隐式时间,通过回溯算法找到其相对参照时间,从而将该隐式时间转化为内容时间范围。该算法为后面的排序算法奠定了基础。(2)提出了两种时态排序算法CT-Rank(Content-Time-based Ranking)和NTLM(a New Temporal Language Model)。CT-Rank算法是基于经验的网页时态排序算法。在脱机阶段,根据映射算法得到的<关键词,内容>对,对网页中的每个关键词计算有时间约束的关键词TF-IDF值。联机处理用户查询时,算法结合了网页中的三种因素:Pagerank值,标题排序分数以及时间约束的关键词分数得到最终的网页排序分数。NTLM算法是基于时态语言模型的网页排序算法。该算法将时态信息融入语言模型中,根据网页中的关键词和时态信息推导出用户文本查询和时态查询的概率,对网页进行排序。实验表明,这两种算法性能在时态排序方面均优于传统排序算法和对比算法,并有良好的用户评价。(3)提出了一种新闻网页搜索结果的时态主题聚类算法。该算法克服了传统聚类算法仅给出文本聚类信息的问题,在使用基于主题的聚类算法得出聚类结果后,在每一个类别中再进行时态聚类,将每一类中包含的网页分布在时间轴中。实验表明通过这种聚类形式,用户可以很容易的发现新闻的时间发展过程,并迅速找到关注的新闻主题。