基于迁移学习的跨领域排序学习算法研究

被引量 : 0次 | 上传用户:Z_PEPSI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和互联网内容的不断丰富,如何通过有效的方式获取需要的信息显得尤为重要。搜索引擎很好地解决了这个问题,成为了人们访问互联网的入口。如何对搜索引擎返回的结果进行排序成为近年来研究的热点,另一方面,搜索引擎结果排序的质量也直接决定了用户的使用体验,进而影响搜索引擎的市场份额。本文的研究工作正是以搜索引擎为大背景进行的。纵观各大主流搜索引擎,查询的结果网页通常在经过排序后,以列表的形式返回给用户,排在最靠前的是系统认为最相关,最能满足用户信息需求的网页。近年来,运用大规模数据处理和机器学习技术训练最优排序模型成为学术界的研究热点,国内外研究者先后提出了一系列经典的方法,有些在工业界已经获得了良好的应用,比如排序支持向量机(Ranking SVM)。绝大多数这类方法都属于监督学习的范畴,为了获得一个可靠的排序模型,我们需要标注大量的训练数据,将这些数据输入到特定的学习机,经过一定时间的自动训练,学习机输出得到的排序模型。在排序学习算法的实际应用中,标注数据数量不足,甚至根本没有标注数据的情况经常出现。现有的监督排序学习方法总是需要一定数量规模的标注数据,以保证最终获得的排序模型的可靠性,当标注数据不足时这些方法就无法得到应用。所幸的是,在排序学习算法的实际应用中,我们也发现,虽然目标领域的标注数据不足,但可能还存在另一部分数量较多的标注数据,这些数据来自一个与目标领域不同但相关的领域(我们称之为“源领域”)。如何利用这部分数据来帮助目标领域中的排序学习,以获得改进的排序模型是本文关注的重点。本文针对排序学习实际应用中面临的标注数据不足的问题,充分利用来自源领域的标注数据,引入迁移学习的概念,创新性地提出了基于迁移学习的跨领域排序学习算法,并进行了应用研究。在系统分析排序学习算法的基本假设、损失函数、优化公式和学习算法之后,本文分别在实例和特征两个方面进行迁移学习,给出各自的基本假设、优化公式以及学习算法。最后,本文还研究了我们的方法在文档检索、垂直搜索中的应用。对于基于实例的迁移排序学习,我们首先提出了一个启发式的方法TransRank,该方法首先对源领域标注数据进行两步预处理,然后将处理过的数据和目标领域的少量训练数据一起输入到Ranking SVM,经过训练得到排序模型。随后,我们又提出了一个改进的概率分布算法CLRankins。对于基于特征的情况,根据假设我们提出了一个统一的优化公式,并将其转换成依次优化两个变量的迭代过程。我们还研究了该优化问题和经典的Ranking SVM之间的关系,并通过证明得出,该优化问题可以使用Ranking SVM作为基础学习机。对该优化问题的求解最终形成了基于特征的迁移排序学习算法CLRankfeat。跨领域的迁移排序学习在文档检索中有着广泛的应用前景。本文使用文档检索的一些公共数据集,模拟标注数据不足的情况,通过实验验证了迁移排序学习在文档检索中的应用效果。基于大规模公共数据集的实验表明,本文提出的三个迁移排序学习方法能不同程度地改进目标领域的排序模型。CLRankfeat能在所有的实验数据集上获得5-15%的性能提升;TransRank和CLRankins只能在部分数据集上获得较小的性能提升。同时,我们还在算法敏感性和鲁棒性上,对这些方法进行比较分析。垂直搜索引擎是迁移排序学习的另一个应用场景。新开发的垂直搜索往往没有足够的时间去标注数据以训练排序模型,但我们可以利用其它垂直搜索的标注数据,通过迁移排序学习来获得排序模型,用于新开发的垂直搜索。在实验中,我们使用某商业搜索引擎的查询点击数据,抽取影响网页排序的特征集合,构造实验所需的数据集。实验表明,TransRank能有效提升新闻搜索上的排序性能,节省大约80%的目标领域标注数据。此外,我们还分析讨论了不同特征在迁移排序学习过程中所起的作用。
其他文献
本文介绍了我国商业银行流动性过剩的含义与现状,分析了流动性过剩的表现与潜在的风险。依据定性分析和定量分析的数学模型,揭示了我国商业银行存在流动性过剩这一现象并剖析
前列腺增生症是中老年男性常见疾病。随着人口老龄化进程,其发病率将进一步增加,严重影响老年男性的生活质量,甚至出现各种并发症,威胁病人的生命,成为影响我国老年男性健康
目的通过比较抗心磷脂抗体(anticardiolipin antibody,ACA)和域抗β2-糖蛋白Ⅰ抗体(anti-β2 glycoprotein Ⅰ antibody,aβ2-GP Ⅰ)阳性不孕症患者与阴性不孕症患者既往不良妊娠及自然流产情况,及抗体阳性患者在接受个体化药物治疗后,新鲜移植周期下两组患者所获的成熟卵数、2PN胚胎数、优质胚胎数,分析抗心磷脂抗体(ACA)和/或抗β2-糖蛋白Ⅰ
雷达目标识别是对雷达探测功能的重要延伸,在现代战争中具有极其重要的意义,也是当前雷达信号处理的一个研究热点。随着城市环境的日益复杂,对低、小、慢目标的检测与识别已
抵押权和租赁权可能共同存在于同一个不动产上,当抵押权人或者执行债权人为了收取贷款金额而拍卖不动产抵押物的时候,就会在抵押权人和租赁人之间产生不可避免的冲突。如何认
保证现代肉牛饲养业健康发展的一个重要因素是有效防止肉牛寄生虫病,防止肉牛寄生虫病,需要采取以预防为主,治疗为辅的手段,预防保健始终是必要的基本原则,除此之外还需要专
长期以来,无论是立法还是裁判,学理还是实践,对是否承认共同过失犯罪一直存在着分歧。许多学者要么是基于现行法律的规定,要么是从传统的共犯理论的角度否定共同过失犯罪的存
21世纪的教育需在人才质量上下功夫,而人才的关键在于是否具有创造精神与创造能力。培养和挖掘学生的创造意识和创造潜能,既是百年大计,又是当务之急。在学校的学科教学中,作
国家重大历史题材美术创作工程,由文化部、财政部共同实施,历时五年,国家投资过亿,以160多年来我国重大历史事件为题材,旨在弘扬中国人民在争取民族解放和社会进步的历史进程
学位
【目的】观察斯帕丰(Spasfon)治疗先兆早产的临床疗效。【方法】将154例先兆早产的孕妇分为2组,A组(78例)用斯帕丰80mg加入50g/L葡萄糖500mL中,静脉滴注。视宫缩调整用量和滴速。B组