论文部分内容阅读
在信息检索领域排序学习方法是目前主流的排序技术,目前,排序学习方法的研究以文档独立性假设为前提,重点关注如何精准预测单个文档与查询之间的相关性得分,忽略了对文档之间的关系进行考虑,这样就导致了排序结果中冗余信息的产生。此外,现有的排序学习方法对于所有类型的查询都用一个统一的排序模型来处理,忽视了查询的差异性,不能够有针对性的对查询进行处理,这样就降低了排序结果的准确率。本文首先论述考虑查询之间的差异性的必要性。然后在此基础上,研究如何在训练排序模型的过程,打破文档独立性假设,对文档间的关系进行建模,具体的研究内容包括:在离线阶段,本文提出在训练排序模型过程中同时将文档间的关系和查询的差异性进行考虑。首先提出将查询表示为查询特征向量的形式,采用聚类的方法,根据查询之间的相似性对查询集合进行划分,形成了不同的训练子集,针对每一个训练子集分别构建排序模型。在体现查询差异的子排序模型的训练过程中,将文档间的关系进行考虑,使得模型的创建更具有针对性和适应性,提出了关系排序学习模型。这样,最终对于一个文档的打分取决于其自身内容与查询的相关性,以及其与之前的所有已经排序好的文档之间的关系。基于以上考虑,定义了相应的排序函数和损失函数。针对在线阶段如何对新到来的查询进行处理,本文提出一种并行排序框架,首先提出一种排序模型选择方法,该方法通过选择k个最善于处理目标查询的排序模型,使用该k个排序模型对待处理查询的相关文档进行打分,使用该方法能够针对不同类型的查询选择出更加适合的候选排序模型对其进行处理,进而能够将不同的排序模型划分到不同的节点并行的对查询进行处理。之后利用一种基于权重的打分函数产对候选排序模型产生的结果列表进行融合形成最终的排序结果列表。在标注数据集LETOR上的实验结果表明,本文提出的针对现有排序学习方法的改进不仅可以有效地提高排序结果的准确率而且能够一定程度上解决检索结果多样化的问题。