信息检索系统中排序学习算法的研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户：nogoodvip

【摘要】

：

自从信息检索技术诞生以来,其一直都是人们研究的重点和热门内容。随着现代互联网技术的飞速发展,人们所产生的数据量越来越大。如何从海量数据中迅速找出用户所需要的信息,

【作者】

：

雷武

【出处】

：

武汉邮电科学研究院

【发表日期】

：

2017年01期

【关键词】

：

信息检索排序学习机器学习算法随机森林 NNLM

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自从信息检索技术诞生以来,其一直都是人们研究的重点和热门内容。随着现代互联网技术的飞速发展,人们所产生的数据量越来越大。如何从海量数据中迅速找出用户所需要的信息,成了信息检索领域研究的重点所在。为了解决这个问题,需要设计一个良好的排序模型,把结果列表中用户最需要的信息排在前列。早期的信息检索研究着眼于分析查询和文档的相关性程度,从而诞生了诸如布尔模型和向量空间模型的排序方法。而随着网络的发展,信息检索需要解决的问题是在网络搜索中找出与查询最相关的网页。因此一些基于链接分析的检索模型应运而生,包括PageRank,HITS等。这些模型各有优劣,一般检索系统会根据自身的工作环境于需求,选择其中一种排序策略。但这种单一的排序策略越来越难满足人们的需求。对此,有学者把各种排序算法进行了融合研究,以期获得一种能拥有更优秀性能的排序策略,排序学习技术应运而生。排序学习是使用机器学习的方法来解决排序问题,它通过对已有数据进行训练,自动生成排序模型。生成的模型由于考虑了多方面的问题,比起传统模型能更好的满足用户的需求。本文在前人的排序学习研究基础上,对排序学习的特征提取和排序模型的生成算法进行了研究,内容可归纳如下:(1)在排序学习中,特征的选取对排序模型的结果有很大的影响。目前的排序学习特征一般以传统检索模型特征为主,但是关于排序学习特征的研究较少。考虑到这些原因,本文从两个方面对排序学习的特征提取进行了研究。首先,在认识到语言模型中平滑的重要性后,提出了基于多参数语言模型的特征提取法;另外,在对NNLM中CBOW模型的原理进行深刻分析后,提出了一种提取文档语义特征的方法。该方法以原有的CBOW模型为基础,在输入上加入了文档向量,最终生成文档的语义特征。在LETOR4.0数据集上进行测试,实验结果证明了这两种新的特征对于排序学习能起到提升查询准确度的作用。(2)目前的排序学习算法中,LambdaMART已经在很多场合证明了它是一门优秀的算法。但由于LambdaMART是一种梯度提升算法,算法迭代时步长和迭代次数之间的平衡不好确定。如果要达到真正的全局最小,那么步长就要很小,迭代次数就会很大,这样训练模型的耗时会很长。基于此,本文提出了iLambdaMART算法。通过把随机森林生成的模型作为LambdaMART的初始模型,一方面尽可能避免了过拟合,另外也大大减小了算法的迭代次数。在数据集Yahoo LTRC和MSLR上的实验中,新的算法在ERR和nDCG两种评价指标中都表现优秀。

其他文献

基于网络评论的区域特征发现问题研究

互联网在人们的日常社会生活中发挥着重要的作用,已经成为人们获取消息的重要平台。随着Web2.0技术的发展,人们在互联网上的信息交流方式发生了改变,人们不再是单一的从网络

学位

区域特征用户评论行为区域聚类异常区域

黑龙江省漠河县霍洛台铜钼矿床地质特征及找矿方向研究

霍洛台铜钼矿床属于古亚洲成矿域和滨太平洋成矿域,处于大兴安岭地槽褶皱系—额尔古纳地块额木尔山中间隆起带上,处在Ⅲ-47-1-1富克山-霍洛台Au-Cu-Mo矿集区内。在Ⅰ区共圈定

学位

花岗闪长斑岩黄铜矿化地质特征找矿方向霍洛台铜钼矿床

基于Spark的大尺度碳循环模型数据融合研究

陆地生态系统碳循环是一个复杂的过程,其模型机理常包含大量难以直接估计的参数。模型数据融合技术是准确估计模型参数的重要手段,对降低参数不确定性、提高模型模拟精度具有

学位

Spark大尺度模型数据融合参数估计

空间到达—离开数据中异常聚簇查询算法研究

随着装有GPS功能的智能手机、出租车等大量可以获取时空数据的设备出现,产生了大量的轨迹数据、带地理标签的媒体数据及签到数据。基于这些数据的查询与挖掘也得到了广泛关注

学位

到达离开数据二分图最大匹配聚类时空异常聚簇基于位置的服务

图像数据中长方体形状物体识别与匹配

近年来,随着网络的快速发展,图像数据库的规模越来越大,基于图像的检索已经开始进入人们的生活。机场、火车站、地铁等重要场合的行李等物体的安全问题,需要使用物体匹配技术

学位

物体识别ASIFT特征分割匹配透视反求框架匹配

LOCA工况大型安全壳内氢气行为研究

由于大型压水堆安全壳的自由体积比较大,具有较强的压力承载能力,一般被认为不存在整体氢气风险,但是安全壳内部构造复杂,氢气容易在局部空间内积聚、燃烧甚至爆炸。因此,安

学位

AP1000氢气分层氢气积聚氢气风险

小型非能动安全壳热分层机理研究

小型模块化反应堆(如NuScale)的安全壳容器浸没在冷却水池中,用来排出LOCA条件下安全壳内的热量。这种非能动系统的传热效率受壳外冷却水池内热分层的影响。因此,研究冷却水

学位

SMR热分层自然对流温度分布

两种靶区勾画方法对乳腺癌放疗后淋巴水肿发生情况的比较

目的:比较两种乳腺癌靶区勾画方法腋窝淋巴结区受照射剂量及放疗后上肢淋巴水肿发生情况。方法:采用前瞻性队列研究方法。选取2018年10月至2019年8月川北医学院附属医院肿瘤放射治疗科行术后放疗的乳腺癌患者为研究对象,随机分为2组,分别参照欧洲放射肿瘤学会(ESTRO)指南、美国肿瘤放射治疗协作组(RTOG)指南勾画乳腺癌术后靶区,参照RTOG指南勾画腋窝淋巴结Ⅰ、Ⅱ、Ⅲ区作为正常组织。处方剂量为5

学位

乳腺癌放射治疗淋巴水肿放疗靶区

电沉积法制备氧化锌（ZnO）薄膜及其性能研究

铜铟镓硒薄膜太阳能电池(CuIn1-xGaxSe2solarcells,简称CIGS)是上个世纪发展起来的的一种清洁的新型薄膜太阳能电池。1974年Bell实验室采用提拉法制备出了第一块CIS太阳能电

学位

电沉积法CIGSZnOZAOITO

基于量子元胞自动机的同或门分析与设计

从世界上第一个晶体管问世,电子技术行业由此开始,随着集成电路的大规模发展,出现了以CMOS器件为核心的集成电路技术,此后集成电路产业朝着迅猛的方向发展,摩尔定律也一直预

学位

量子元胞自动机功耗数值比较器奇偶校验器

信息检索系统中排序学习算法的研究

其他学术论文