用于信息检索的代价敏感排序学习算法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:wakaji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、最广泛使用的信息库,如何有效检索这些海量信息成为当前重要的研究课题,因而信息检索(InformationRetrieval,IR)技术越来越受到人们的重视。信息检索是指从大量的文档集合中查找到与给定的查询(query)相关的信息子集,是处理海量文本信息的重要手段。本文主要研究基于大规模文本数据的信息检索算法。 在目前绝大多数的信息检索系统中,其检索出来的信息(如文档等)都以排序的方式返回给用户,因此,信息检索模型研究的核心问题也就归结为如何高效地为信息进行排序。目前,利用监督学习的方法构造排序模型是信息检索领域中对排序方法研究的热点。基于人工标注的数据,排序学习算法构造出排序模型并且将其用于预测新的未标注数据。排序支持向量机是基于监督学习的排序算法中的代表,其将排序的问题转换成在有序对空间上的分类问题,然后用支持向量机(SupportVectorMachines,SVM)模型求解。 在实际的信息检索的应用中,我们发现位于序列顶部的信息要比位于序列中间或者尾部的信息更加重要,受到用户更多的关注。例如在文档检索中,用户通常只是阅读位于序列顶部的文档。因此,在基于有序对的排序支持向量机的算法中,与序列顶部有关的有序对对排序性能的影响比其他有序对更大。然而,传统的排序算法如排序支持向量机并没有考虑到上述因素,它在训练的过程中平均地利用了所有生成的有序对。在本文的研究工作中,我们把代价敏感的学习方法融入到排序支持向量机的学习算法中,提出了代价敏感排序学习算法,对传统的排序支持向量机做出了改进,显著的提高了排序性能。实验证明,与排序支持向量机相比,本文所提出的代价敏感排序学习算法能够降低发生在序列顶部的错误,提高了排序性能。 本文针对于信息检索中的排序学习问题,提出把代价敏感学习方法融入到排序支持向量机中去,在损失函数的构造、优化以及算法应用等方面开展研究。 在系统的分析研究了信息检索的实际需求和排序支持向量机算法的基础上,本文创造性的将代价敏感的学习方法融入到排序支持向量机中,提出了代价敏感的排序损失函数,并且对损失函数的构造进行了详细的说明和分析,阐述了其工作原理和性质。 针对提出的代价敏感的排序损失函数,本文采用梯度下降法和二次规划法来优化代价敏感的排序损失函数,提出了代价敏感排序学习算法。在梯度下降法中,本文证明了损失函数的凸性,并把最小化损失函数的问题看成无约束的优化问题,设计了梯度下降算法对目标函数进行优化求解;在二次规划法中,本文证明了优化代价敏感的排序损失函数等价于优化一个二次规划问题,并且采用改进的支持向量机对其进行优化求解。 基于模拟实验,本文从排序模型、有序对的预测精度以及排序性能三个方面综合分析比较了本文提出的代价敏感排序学习算法和传统的排序支持向量机算法。模拟实验的结果表明:在符合现实数据分布的实验条件下,本文所提出的代价敏感排序学习算法能够取得比传统的排序支持向量机更好的排序性能。 代价敏感排序学习算法在信息检索中有着非常广泛的应用,基于文档检索中的文本文档检索和网络文档检索,本文验证了代价敏感排序学习算法在信息检索中的应用效果:基于大规模公共数据集合的实验表明,本文提出的代价敏感排序学习算法能够比包括排序支持向量机在内的当前流行的检索算法取得更好的检索性能。 企业级搜索是目前信息检索研究中的热点问题,也是代价敏感排序学习算法的一个重要的应用领域。本文以定义搜索为例提出了从企业网络文档中搜索定义的方法,指出定义搜索的核心问题在于为候选定义进行排序,并且将本文提出的代价敏感排序学习算法应用于定义搜索,实验结果表明,代价敏感排序学习算法能够比其他排序算法取得更好的排序性能。
其他文献
随着视频编码技术的发展,高清视频逐步走进了千家万户,全面高清化的需求日益突出。对于数字电视而言,大部分家庭已经开始使用支持H.264/AVC解码的高清机顶盒,而有部分家庭仍
随着Web信息的爆炸式增长,如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰人们的一大难题。传统搜索引擎技术满足了人们一定的查询需要,但由于其通用的性质,
随着本体技术的飞速发展,本体的规模也逐渐膨胀,针对大本体的本体应用和本体维护难以实现。一个具体应用中往往只需要大本体中的一小部分,使用整个本体会大大增加系统的复杂
随着医疗信息化的不断发展,很多医院建立了各种医疗信息系统,保存着大量的医学临床数据。有效的利用这些数据,能够为急性传染病、慢性病和地方性疾病的预警、预报和跟踪提供
随着互联网的飞速发展,大规模社会网站变得非常流行,受到了广大学者的研究与关注。社会网中蕴含着大量的信息,在多个领域都有重要的应用。本文研究了社会网上的影响传播问题,
火电厂实时监控信息系统是近年来电力企业信息化发展的重要举措,为该系统提供数据支持的数据预处理技术则是该系统可靠、科学运行的关键技术之一。目前,对稳态过程的数据预处理技术研究已较为完善,而针对火电厂等实际测量过程为动态过程的动态数据校正技术仍未能够形成一套合理可行的解决方案。因此,对动态数据预处理技术的研究,不仅具有理论创新的意义,同时还有利于众多实际生产过程中监控技术和优化技术的进一步发展。动态数
P2P技术是一种对等计算技术,以P2P技术为基础的网络系统在运行时形成P2P网络。在P2P网络中,每个节点同时具有服务器和客户机的双重功能,可同时作为服务的提供者和使用者,是一
随着现代科学技术以及网络技术的快速发展,基于互联网的各种信息系统日益受到人们青睐,发挥出了重要作用。XML因其具有自描述性、可扩展性以及开放性等优点已经成为网络上信
未来网络的发展趋势必然是多种无线接入网络共存,因此,异构接入技术之间的互联互通成为未来网络中的研究热点之一。而UMTS网络与WLAN网络是部署最为广泛的两种无线接入网络,许多
随着无线通信技术和移动终端在人们日常生活中的高度普及,基于位置信息的各种应用也逐渐成为了室内定位领域的研究热点之一。然而在室外定位中表现突出的GPS却受墙体遮挡影响