论文部分内容阅读
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、最广泛使用的信息库,如何有效检索这些海量信息成为当前重要的研究课题,因而信息检索(InformationRetrieval,IR)技术越来越受到人们的重视。信息检索是指从大量的文档集合中查找到与给定的查询(query)相关的信息子集,是处理海量文本信息的重要手段。本文主要研究基于大规模文本数据的信息检索算法。
在目前绝大多数的信息检索系统中,其检索出来的信息(如文档等)都以排序的方式返回给用户,因此,信息检索模型研究的核心问题也就归结为如何高效地为信息进行排序。目前,利用监督学习的方法构造排序模型是信息检索领域中对排序方法研究的热点。基于人工标注的数据,排序学习算法构造出排序模型并且将其用于预测新的未标注数据。排序支持向量机是基于监督学习的排序算法中的代表,其将排序的问题转换成在有序对空间上的分类问题,然后用支持向量机(SupportVectorMachines,SVM)模型求解。
在实际的信息检索的应用中,我们发现位于序列顶部的信息要比位于序列中间或者尾部的信息更加重要,受到用户更多的关注。例如在文档检索中,用户通常只是阅读位于序列顶部的文档。因此,在基于有序对的排序支持向量机的算法中,与序列顶部有关的有序对对排序性能的影响比其他有序对更大。然而,传统的排序算法如排序支持向量机并没有考虑到上述因素,它在训练的过程中平均地利用了所有生成的有序对。在本文的研究工作中,我们把代价敏感的学习方法融入到排序支持向量机的学习算法中,提出了代价敏感排序学习算法,对传统的排序支持向量机做出了改进,显著的提高了排序性能。实验证明,与排序支持向量机相比,本文所提出的代价敏感排序学习算法能够降低发生在序列顶部的错误,提高了排序性能。
本文针对于信息检索中的排序学习问题,提出把代价敏感学习方法融入到排序支持向量机中去,在损失函数的构造、优化以及算法应用等方面开展研究。
在系统的分析研究了信息检索的实际需求和排序支持向量机算法的基础上,本文创造性的将代价敏感的学习方法融入到排序支持向量机中,提出了代价敏感的排序损失函数,并且对损失函数的构造进行了详细的说明和分析,阐述了其工作原理和性质。
针对提出的代价敏感的排序损失函数,本文采用梯度下降法和二次规划法来优化代价敏感的排序损失函数,提出了代价敏感排序学习算法。在梯度下降法中,本文证明了损失函数的凸性,并把最小化损失函数的问题看成无约束的优化问题,设计了梯度下降算法对目标函数进行优化求解;在二次规划法中,本文证明了优化代价敏感的排序损失函数等价于优化一个二次规划问题,并且采用改进的支持向量机对其进行优化求解。
基于模拟实验,本文从排序模型、有序对的预测精度以及排序性能三个方面综合分析比较了本文提出的代价敏感排序学习算法和传统的排序支持向量机算法。模拟实验的结果表明:在符合现实数据分布的实验条件下,本文所提出的代价敏感排序学习算法能够取得比传统的排序支持向量机更好的排序性能。
代价敏感排序学习算法在信息检索中有着非常广泛的应用,基于文档检索中的文本文档检索和网络文档检索,本文验证了代价敏感排序学习算法在信息检索中的应用效果:基于大规模公共数据集合的实验表明,本文提出的代价敏感排序学习算法能够比包括排序支持向量机在内的当前流行的检索算法取得更好的检索性能。
企业级搜索是目前信息检索研究中的热点问题,也是代价敏感排序学习算法的一个重要的应用领域。本文以定义搜索为例提出了从企业网络文档中搜索定义的方法,指出定义搜索的核心问题在于为候选定义进行排序,并且将本文提出的代价敏感排序学习算法应用于定义搜索,实验结果表明,代价敏感排序学习算法能够比其他排序算法取得更好的排序性能。