一种基于主题的并行排序学习方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:mervin10183
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息检索领域排序学习方法是目前主流的排序技术,目前,排序学习方法的研究以文档独立性假设为前提,重点关注如何精准预测单个文档与查询之间的相关性得分,忽略了对文档之间的关系进行考虑,这样就导致了排序结果中冗余信息的产生。此外,现有的排序学习方法对于所有类型的查询都用一个统一的排序模型来处理,忽视了查询的差异性,不能够有针对性的对查询进行处理,这样就降低了排序结果的准确率。本文首先论述考虑查询之间的差异性的必要性。然后在此基础上,研究如何在训练排序模型的过程,打破文档独立性假设,对文档间的关系进行建模,具体的研究内容包括:在离线阶段,本文提出在训练排序模型过程中同时将文档间的关系和查询的差异性进行考虑。首先提出将查询表示为查询特征向量的形式,采用聚类的方法,根据查询之间的相似性对查询集合进行划分,形成了不同的训练子集,针对每一个训练子集分别构建排序模型。在体现查询差异的子排序模型的训练过程中,将文档间的关系进行考虑,使得模型的创建更具有针对性和适应性,提出了关系排序学习模型。这样,最终对于一个文档的打分取决于其自身内容与查询的相关性,以及其与之前的所有已经排序好的文档之间的关系。基于以上考虑,定义了相应的排序函数和损失函数。针对在线阶段如何对新到来的查询进行处理,本文提出一种并行排序框架,首先提出一种排序模型选择方法,该方法通过选择k个最善于处理目标查询的排序模型,使用该k个排序模型对待处理查询的相关文档进行打分,使用该方法能够针对不同类型的查询选择出更加适合的候选排序模型对其进行处理,进而能够将不同的排序模型划分到不同的节点并行的对查询进行处理。之后利用一种基于权重的打分函数产对候选排序模型产生的结果列表进行融合形成最终的排序结果列表。在标注数据集LETOR上的实验结果表明,本文提出的针对现有排序学习方法的改进不仅可以有效地提高排序结果的准确率而且能够一定程度上解决检索结果多样化的问题。
其他文献
学术社会网络是通过学术活动构建起来的网络,学者组成了网络中的各个节点,学者之间的合著关系构成了网络中的边。随着学术研究越来越快的发展,学术社会网络的规模也逐渐增大
随着计算机和网络技术的不断发展,传统的无线网络已经不能满足人们的需求,因此高效快捷,组网灵活的无线Mesh网络应运而生。它是一种新型的无线通信网,由于其各个方面的优势,
量子计算具有并行性、指数加速和指数级存储容量等特征,已经成为当今世界各国紧密跟踪的前沿学科之一。量子理论中有关量子态的叠加、纠缠和干涉等特性,有可能解决经典计算中的
随着全球互联网的迅速发展,以因特网技术为主导的数据通信在通信业务总量中的比例迅速上升,如一些新的多媒体通信不断涌现,可视电话、视频会议、多媒体远程教育等。在这些应
随着科技进步,各种图像捕获设备层出不穷,图像在人们的生活中使用的也越来越广泛。但同时,由于数字图像便于修改,导致它的内容安全性逐步降低。针对这个问题,人们提出各种解
大数据时代,个性化推荐已经成为电子商务网站中的一个重要研究方向,它可以快速发现和匹配用户的喜好信息。用户信任在推荐系统中有着不可忽略的作用,然而传统的电子商务网站
视频中的目标跟踪是计算机视觉领域中富有挑战性的课题之一,在视觉导航、安全监控等领域有着广阔的应用前景。开发鲁棒的跟踪算法也具有重要的理论意义。考虑到实际环境中的
交互式系统设计主要包括用户界面的交互设计和用户界面软件架构的设计。已有的用户界面交互设计和软件架构设计是为满足办公人员的需求产生的,旨在满足用户办公有效、高效的
审计领域己经从传统的手工审计过渡到计算机审计,生成了大量的审计数据,但往往大量的数据无法产生可信的信息。数据质量是决定数据好坏的关键,只有良好的数据质量才能帮助人
随着互联网技术的发展及其在社会各个层面的不断深入和普及,社会计算继物理计算和生物计算之后,逐步成为科学计算研究的焦点和前沿课题,社区识别是社会计算领域重要的基础性研究