基于半监督学习的网页搜索排序研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:resident_2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,搜索引擎在人们的日常生活中扮演着非常重要的角色,人们依赖搜索引擎来检索各种各样的信息。网页搜索排序是搜索引擎的一个子模块,它旨在将搜索引擎在一次检索中返回的大量相关网页进行排序,使得与查询内容相关度高的网页排在前面,用户可以在点击部分排序靠前的网页后得到满意的结果。因此,优化搜索引擎中的网页搜索排序就尤为重要,它可以使用户减少甄别有用信息的时间,得到满意的返回结果。本文主要研究网页搜索排序任务,旨在用有限的有标注查询-文档对和大量未标注查询-文档对共同训练模型,在NDCG,ERR,Q-measure等三种排序指标上提升排序效果。本文针对网页搜索排序,进行了以下三方面研究:(1)排序学习是基于统计的学习方法,因其能够组合多种文档特征及深度理解文档语义关系等优点,目前被广泛的应用于网页搜索排序任务中,本文手工抽取一些特征向量对文档进行表示,同时对其进行不同的特征组合以区分点击特征的影响,然后对比不同的排序模型如Ranking SVM,RankNet,LambdaMART等。本文发现了点击特征对提升排序结果非常有帮助,同时LambdaMART的整体表现在实验模型中最优。(2)文档表示方法的不同,对于排序结果有一定影响,本文对不同的查询-文档对表示方法进行探究,对比它们输入排序模型的表现。本文得知,用深度学习方法来表示文档整体优于手工抽取特征的表示方法,能够抽取到文档的隐含信息,深度理解文档语义关系。此外,基于注意力机制的层次LSTM模型效果更好,它将不同的单词及句子分配了不同的权重,考虑到了预测单词的重要性问题,能够更好的理解词句之间的语义关系。(3)针对本任务有标注数据少且标注代价高,未标注数据容易获得等特点,本文将半监督学习方法应用于网页搜索排序。本文对不同的半监督学习方法进行对比实验,证实了半监督学习方法对提升排序结果有所帮助,协同训练的方法稳定性好且效果较优。
其他文献
为了有效的防治大气污染,需要对其根源进行探究分析,需要清晰的发现其污染来源和它的污染排放特征及对人体所造成的健康风险。因此,本研究初步探讨了有色行业集中区暨蒙自地区固定源(出大量有色冶炼外还有化工、水泥、钢铁、火电等固定源)和开放源(土壤扬尘、道路尘、城市扬尘)所排放的颗粒物组分特征,建立了固定源和开放源源谱,并对开放源进行了环境评价及健康风险评价,对有色冶炼行业集区大气污染物来源解析及排放清单的
压力矫直机是提高工件直线度的关键工艺装备。在压力矫直工艺中,矫直加工精度很大程度上取决于矫直机自身的精度。然而,压力矫直机在矫直加工一段时间后,由于制造与装配的过
【摘 要】所谓教学策略:是指在教学过程中教师为有计划地引导学生学习、达成教学目标所采用的一切方法。建构主义是认知理论的一个分支,建构主义学习理论强调以学生为教学中心,学生是认知结构的主动建构者,建构主义认为教学过程主要是促进学生主动建构认知结构的过程,因此基于建构主义视角下的教学策略就是以促进学生建构良好认知结构为主要目的的策略。正是因为建构主义认知理论是与素质教育非常吻合的教学理论,因此近几年受