论文部分内容阅读
近年来,搜索引擎在人们的日常生活中扮演着非常重要的角色,人们依赖搜索引擎来检索各种各样的信息。网页搜索排序是搜索引擎的一个子模块,它旨在将搜索引擎在一次检索中返回的大量相关网页进行排序,使得与查询内容相关度高的网页排在前面,用户可以在点击部分排序靠前的网页后得到满意的结果。因此,优化搜索引擎中的网页搜索排序就尤为重要,它可以使用户减少甄别有用信息的时间,得到满意的返回结果。本文主要研究网页搜索排序任务,旨在用有限的有标注查询-文档对和大量未标注查询-文档对共同训练模型,在NDCG,ERR,Q-measure等三种排序指标上提升排序效果。本文针对网页搜索排序,进行了以下三方面研究:(1)排序学习是基于统计的学习方法,因其能够组合多种文档特征及深度理解文档语义关系等优点,目前被广泛的应用于网页搜索排序任务中,本文手工抽取一些特征向量对文档进行表示,同时对其进行不同的特征组合以区分点击特征的影响,然后对比不同的排序模型如Ranking SVM,RankNet,LambdaMART等。本文发现了点击特征对提升排序结果非常有帮助,同时LambdaMART的整体表现在实验模型中最优。(2)文档表示方法的不同,对于排序结果有一定影响,本文对不同的查询-文档对表示方法进行探究,对比它们输入排序模型的表现。本文得知,用深度学习方法来表示文档整体优于手工抽取特征的表示方法,能够抽取到文档的隐含信息,深度理解文档语义关系。此外,基于注意力机制的层次LSTM模型效果更好,它将不同的单词及句子分配了不同的权重,考虑到了预测单词的重要性问题,能够更好的理解词句之间的语义关系。(3)针对本任务有标注数据少且标注代价高,未标注数据容易获得等特点,本文将半监督学习方法应用于网页搜索排序。本文对不同的半监督学习方法进行对比实验,证实了半监督学习方法对提升排序结果有所帮助,协同训练的方法稳定性好且效果较优。