论文部分内容阅读
自从信息检索技术诞生以来,其一直都是人们研究的重点和热门内容。随着现代互联网技术的飞速发展,人们所产生的数据量越来越大。如何从海量数据中迅速找出用户所需要的信息,成了信息检索领域研究的重点所在。为了解决这个问题,需要设计一个良好的排序模型,把结果列表中用户最需要的信息排在前列。早期的信息检索研究着眼于分析查询和文档的相关性程度,从而诞生了诸如布尔模型和向量空间模型的排序方法。而随着网络的发展,信息检索需要解决的问题是在网络搜索中找出与查询最相关的网页。因此一些基于链接分析的检索模型应运而生,包括PageRank,HITS等。这些模型各有优劣,一般检索系统会根据自身的工作环境于需求,选择其中一种排序策略。但这种单一的排序策略越来越难满足人们的需求。对此,有学者把各种排序算法进行了融合研究,以期获得一种能拥有更优秀性能的排序策略,排序学习技术应运而生。排序学习是使用机器学习的方法来解决排序问题,它通过对已有数据进行训练,自动生成排序模型。生成的模型由于考虑了多方面的问题,比起传统模型能更好的满足用户的需求。本文在前人的排序学习研究基础上,对排序学习的特征提取和排序模型的生成算法进行了研究,内容可归纳如下:(1)在排序学习中,特征的选取对排序模型的结果有很大的影响。目前的排序学习特征一般以传统检索模型特征为主,但是关于排序学习特征的研究较少。考虑到这些原因,本文从两个方面对排序学习的特征提取进行了研究。首先,在认识到语言模型中平滑的重要性后,提出了基于多参数语言模型的特征提取法;另外,在对NNLM中CBOW模型的原理进行深刻分析后,提出了一种提取文档语义特征的方法。该方法以原有的CBOW模型为基础,在输入上加入了文档向量,最终生成文档的语义特征。在LETOR4.0数据集上进行测试,实验结果证明了这两种新的特征对于排序学习能起到提升查询准确度的作用。(2)目前的排序学习算法中,LambdaMART已经在很多场合证明了它是一门优秀的算法。但由于LambdaMART是一种梯度提升算法,算法迭代时步长和迭代次数之间的平衡不好确定。如果要达到真正的全局最小,那么步长就要很小,迭代次数就会很大,这样训练模型的耗时会很长。基于此,本文提出了iLambdaMART算法。通过把随机森林生成的模型作为LambdaMART的初始模型,一方面尽可能避免了过拟合,另外也大大减小了算法的迭代次数。在数据集Yahoo LTRC和MSLR上的实验中,新的算法在ERR和nDCG两种评价指标中都表现优秀。