论文部分内容阅读
查询扩展技术主要用于解决用户提交的查询不能准确描述其自身需求及检索意图的问题。早期的查询扩展技术主要以查询文档集作为扩展词的来源,如今,各种形式的外部扩展资源逐步被引入查询扩展过程,如维基百科、词关系词典以及用户用于搜索的查询日志等。随着社会化标注系统的发展,研究者们开始探索社会化标注信息作为扩展词来源的可能性。目前,尽管基于社会化标注信息的查询扩展的有效性已经得到验证,但其作用效果仍有提升的空间,本文主要探索了如何能够在社会化标注信息中获取更好的扩展词来优化查询扩展的效果。社会化标注系统中,用户的标注质量直接影响标签与资源的相关性,可以推知这种影响能够进一步作用于原始查询与扩展词的相关性上。因此,高质量用户标注的标签更有可能成为好的扩展词。同时,排序学习方法能够通过整合有价值的特征以获得更优的排序结果,是进行特征融合非常有效的一种手段。基于上述分析,本文的主要贡献包括以下两方面:第一,本文提出一种用户质量挖掘算法,该算法根据用户的标注行为信息为每个用户分配质量分数,用于标识用户的标注质量。本文通过实验验证了用户质量挖掘算法的有效性。同时,在该算法的基础上,本文又提出两种基于用户质量的查询扩展方法,将用户质量以两种不同的方式融入查询扩展过程中:(1)利用用户质量过滤初次检索返回的资源,从过滤后的资源中选择扩展词;(2)对高质量用户标注的标签被选择成为扩展词的打分过程进行加权,提高其成为扩展词的可能。第二,本文在基于标签词共现的查询扩展方法基础上结合以上两种基于用户质量的查询扩展方法,提出一种基于多种扩展词选择策略的查询扩展框架,进一步优化查询扩展效果。此外,本文还将排序学习方法引入扩展词的权重估计上,同时加入标签词自身属性构造特征向量来训练排序模型。实验验证了本文提出的基于用户质量的查询扩展方法和基于多种扩展词选择策略的查询扩展框架能够获得更优的查询扩展词,从而提高了查询扩展效果。