排序学习中的批量主动学习问题研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:windlian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的突飞猛进,Web信息量爆炸性增长,人们越来越习惯使用搜索引擎查找所关心的信息。但浩瀚的信息资源却给搜索引擎的发展提出了新的挑战。如何有效、快捷、准确地将查询结果返回给用户,提高Web信息检索效果,已变成一项迫切而有意义的研究课题。   在现阶段信息检索领域的研究中,基于监督学习的排序学习逐渐成为排序研究的热点。基于监督学习的排序学习需要大量的人工标注的样本,为了减少人工标注样本的标注量,产生了一些基于“选择最值得标注的样本进行标注”思想的所谓主动排序学习算法。通过主动排序学习算法,用户不需要一开始标注所有的样本,而是开始只标注一部分样本,先学习得到一个排序模型;然后每次从剩下的未标注样本中选择一个最值得标注的样本进行标注,把这个新标注的样本放入训练集中,重新训练得到新的排序模型;然后在剩下的未标注样本中再重新选择一个样本进行标注,加入训练集,如此类推直到得到最终的排序模型。主动学习减少了排序学习的样本标注量,但此方法有一个问题是每次只选择一个样本标注,之后又要重新训练,训练需要很多时间,同时标注人员标注下一个样本需要等待很长时间。如果每次可以选择多个样本,则可以减少整个主动排序学习的时间,降低标注人员的工作量,即标注代价,同时,如果有多个标注人员的话,还可以实现并行标注,提高主动排序的效率。   针对上述问题,本文提出批量主动排序学习的思想,主动排序学习的时候,一次能够找到多个值得标注的样本给用户标注,这多个标注的样本对排序模型性能的提升有很大的价值。   本文提出了两种批量主动排序学习算法,一种是基于夹角差异的批量主动排序学习算法,该算法通过加入批量选择的样本之间的夹角差异度量,来减少批量选择的样本之间的相似度,提高批量主动排序的性能。另一种是基于损失函数的批量主动排序学习算法,该算法直接从提高排序模型性能的损失函数入手,批量选择能够使损失函数达到最小值的那些样本进行标注。   本文在不同数据集上进行实验评价以上两种批量主动排序学习算法,同时与单样本主动排序学习算法,原始的批量主动排序学习算法(直接用单个主动排序学习算法选择多个样本)等进行比较分析。实验结果表明,本文提出的批量主动排序学习算法具有很好的性能。
其他文献
政府投资对促进县域经济发展、稳定社会信心具有不可替代的作用。但仅靠政府投资远远不能满足县域经济发展的需要,必须加大民间投资力度,以弥补政府投资的不足。本文从投资理
本文在电机矢量控制模型基础上,考虑转子时间常数的影响,在线辨识定子电阻实际值,实现驱动系统宽范围调速,其主要工作如下:  1、分析比较了感应电机矢量控制系统的几种主流控制
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
随着GIS技术的发展与社会需求的不断变化,人们已经不能满足于传统GIS所提供的各种信息处理与服务,迫切希望能够在野外移动环境中获得GIS的支持与服务。嵌入式技术的发展使得GIS
医学图像配准具有很重要的临床应用价值,对各种使用不同成像手段所获取的医学图像进行配准,不仅可以用于医疗诊断,还可以用于手术计划的制定、病理变化的跟踪、治疗效果的评价等
高产优质高效农业是我国农业发展的战略选择 ………………………………………………………………1(1)怎样使湖南优质稻米开发再上新台阶………1(5)发展高产优质高效果树产业
视频中的文本信息对于视频内容的检索具有非常重要的价值。由于受到背景复杂度、字符与背景的对比度、字符分辨率、字符排列方向和字体大小等因素的影响,对视频文本提取的处
液氨施肥目前主要采用土壤深施,包括播前基施和中耕作物苗期追施。这种施肥方法对土壤要求疏松、细碎,残茬、杂草尽量少,含水量达13%左右。这样,氨在土壤中不易扩散损失,易被
铁矿球团是炼铁高炉的主要炉料,球团矿的质量直接影响炼铁产品的效能。球团矿在形成成品前必须经过焙烧过程,包括生球干燥、焙烧和冷却,以形成具有一定强度和冶金性能的球形含铁
在科学与技术领域,可以用网络描述的系统——网络化系统无处不在,并且已经渗透到了人们生活的各个层面。它们为来自不同领域的专家、学者们提供了许多激动人心的机遇与挑战。其