论文部分内容阅读
随着互联网技术的迅速发展,Web信息正以指数级的速度增长,如何从这些海量的信息中检索出所需要的信息已成为一个非常重要的研究课题。由于用户查询用词与文档关键词不匹配,传统信息检索的结果并不理想,难以满足用户的查询需求。因此,研究信息检索中的查询扩展技术,通过对用户的初始查询进行扩展以有效地解决“词不匹配”问题,具有重要的理论意义和一定的实用价值。
本文的主要工作包括:
(1)介绍了课题的研究背景,包括信息检索的概念、性能评价标准、检索模型等,综述了查询扩展的相关知识。
(2)针对当前基于关联规则的查询扩展算法未考虑关键词项在文档数据库中的不同文档记录中具有不同权重的缺点,首先提出了一种面向查询扩展的完全加权关联规则挖掘算法(An All-weighted Association Rules Mining Algorithm for Query Expansion,简称AWAR算法)。该算法充分考虑了关键词项在文档数据库中的不同文档记录中具有不同的权重,利用BM25检索模型对关键词赋以权重,引入完全加权的项权值,并采用4种剪枝策略,实验结果表明该算法能极大地提高挖掘的效率。然后提出了一种基于AWAR算法的查询扩展算法(A Query Expansion Algorithm Based on AWAR,简称AWARQE算法)。该算法利用AWAR 算法对初始查询结果集中的前N篇文档进行完全加权关联规则挖掘,构建规则库,并从规则库中选取完全加权置信度最大的K个词作为扩展词进行查询扩展。实验表明AWARQE算法能显著提高信息检索的性能。
(3)针对基于自动相关反馈的查询扩展算法(A Query Expansion Algorithm Based on Automatic Relevance Feedback,简称ARFQE算法)中存在的“查询漂移”问题,提出了一种基于K-means算法的查询扩展算法(A Query Expansion Algorithm Based on K-means,简称KQE算法)。该算法利用K-means算法对初始查询结果集进行重新排序,提高前N篇文档中相关文档的比例,实验结果表明该算法能够有效地抑制“查询漂移”。
(4)结合AWARQE算法和KQE算法,提出了一种基于关联规则和聚类算法的查询扩展算法(A Query Expansion Algorithm Based on Association Rules and Cluster Algorithm,简称ACQE算法)。该算法首先对初始查询结果集进行重新排序,然后利用AWAR算法对排序后的结果集中的前N篇文档进行完全加权关联规则挖掘,选取扩展词进行查询扩展。
(5)在CIRB030中文测试集上进行实验,对ARFQE算法与本文提出的三种查询扩展算法(AWARQE算法、KQE算法、ACQE算法)进行了性能分析与比较。
实验结果表明:AWARQE算法、KQE算法、ACQE算法较ARFQE算法在查准率、平均准确率等方面均有明显改善,能显著地提高信息检索的性能。