【摘 要】
:
文档与查询之间的语义鸿沟是信息检索领域中一个挑战性的难题。伪相关反馈是解决这个问题的一个可行的办法。由于自然语言的复杂性,传统的伪相关反馈方法很难准确判断查询与扩展项之间的语义相关度,因此这种方法不可避免地会引入一些噪音。预训练模型BERT在很多自然语言处理任务上取得了里程碑式的突破,其中Nogueira等人在MS MARCO段落检索任务上,利用BERT模型将检索精度提升了 27%左右。相对于传统
论文部分内容阅读
文档与查询之间的语义鸿沟是信息检索领域中一个挑战性的难题。伪相关反馈是解决这个问题的一个可行的办法。由于自然语言的复杂性,传统的伪相关反馈方法很难准确判断查询与扩展项之间的语义相关度,因此这种方法不可避免地会引入一些噪音。预训练模型BERT在很多自然语言处理任务上取得了里程碑式的突破,其中Nogueira等人在MS MARCO段落检索任务上,利用BERT模型将检索精度提升了 27%左右。相对于传统文本建模的方法,BERT模型能更好地捕获文本中的语义信息。本文将对BERT模型在伪相关反馈任务上的可行性和有效性进行了研究,并提出了两种基于BERT模型的伪相关反馈方法。本文的主要工作包括以下两个方面:第一,利用预训练模型BERT进行扩展词的选取。我们提出基于BERT词向量的方法,将BERT词向量应用到查询扩展词的挑选和权重度量过程中。首先利用BM25模型得到候选文档列表;然后将文档分别输入BERT模型中进行编码,并挑选与原查询相似度高的扩展词;最后计算BM25得分和词向量相似度得分的权重和,对初次检索结果重新排序。我们在经典的信息检索数据集AP90、Disk4&5以及WT2G上进行了实验。实验结果证明:相对于传统的词向量方法,BERT模型能挑选出更精确的扩展词,进一步提升了检索效果。第二,利用预训练模型BERT进行扩展文本块的选取。综合考虑到查询和文档的相关性以及文档和扩展项的相关性,我们提出了 PEACE模型。首先我们利用BM25模型得到候选文档列表;然后利用BERT模型从每篇文档中挑选合适的文本块作为此文档的代表;再从初次检索的前N篇文档中,挑选文本块作为查询扩展项;最后计算BM25得分与文本块相似度得分之和,对第一轮检索结果重新排序。我们在 AP90、Disk4&5 和 WT2G 数据集上进行了实验。在 NDCG@10、NDCG@20、P@10和P@20等四项指标上,实验结果相比Rocchio模型均有较大的提升,证明了 PEACE模型的有效性。
其他文献
单细胞转录组测序技术以单个细胞为分辨率测量基因表达值,为解析组织内部异质性提供了机遇。组织内部异质性的研究能够发现新的细胞类型,研究细胞复杂的分化和发育轨迹,并提高对人类肿瘤等疾病的理解。为了更加准确地解析组织内部的异质性,我们需要识别组织内部包含的细胞类型。面对单次实验产生的数千甚至数百万个细胞的测序数据,目前最主流的方法是通过对给定的单细胞转录组测序数据进行聚类来识别细胞类型。虽然已有很多学者
课程思政是落实立德树人任务的重要手段,可以帮助学生树立正确的人生观和价值观,践行社会主义核心价值观。生态学作为生物科学专业的一门核心课程,具有丰富的思政元素,是开展课程思政的良好载体。将OBE理念运用于生态学课程思政建设中,挖掘生态学课程内容中蕴含的思政元素,从课程思政目标优化、教学内容设计、课程教学实施和教学评价等方面构建生态学课程思政体系,并通过教学实践充分发挥生态学课程的育人效果。该课程思政
前不久,住房和城乡建设部发布开展第一批城市更新试点工作的通知,全国21个城市纳入试点,城市更新试点旨在探索建立城市更新统筹谋划机制、可持续模式及配套制度政策。笔者看到,近段时间,一些试点城市公布的城市更新方案,纷纷摒弃了过去常见的“一键重启”式的大拆大建做法,城市更新的观念与行动正在经历从“拆改留”到“留改拆”的转变。
大数据时代来临,海量的数据促使人们想要高效的挖掘数据和有效的利用数据。聚类算法就是一种常用的数据挖掘工具,在不具备先验知识的情况下,探究数据内在的结构信息和相似关系,通过把多个对象分成不同类簇的方式有效地处理海量数据。因此,它也被广泛应用在各个领域,如:信息提取、模式识别、图像分析、数据压缩和网络安全等。密度峰值聚类算法(Densitypeakclustering,DPC)是近年来比较热门的聚类算
在党百年华诞的重大时刻,发挥党史育人功能优势,推进党史学习教育常态化、长效化,正当其时,确有必要。用好课程教学这一主渠道,将党史学习教育融入课程思政,有助于全员、全方位、全过程提高党史育人成效。面对网络文化、社会环境、教育方式等对党史学习的影响,在“又红又专”的教师队伍引领下,找准党史融入专业课程的切入点,然后展开课程学情分析,完善教学设计,改革教学方法,将专业课程中“隐性”的思政元素“显性”化,
近些年来,随着科技的发展和机器计算能力的提升,神经网络和深度学习技术在自然语言处理领域中得到广泛的应用。在自然语言处理领域里,文本自动生成是一个重要且具有挑战性的研究方向。本文旨在根据给定的主题词生成一段可读性强的、主题相关性大的文本,此任务有以下三个难点:第一,输入信息不足。本文中的主题短文生成任务属于文本到文本的生成,在文本摘要和机器翻译这些任务中,原文本的输入提供了足够的语义信息以生成所需的
小学生编程教育对国家未来科技主导权具有极其重要影响,现已经上升到了国家战略层次。目前针对小学生编程教育平台的应用虽然有了一定的进展,但实际教学中仍存在硬件可编程性较差、设备实用性不足、编程教学案例乏味等问题。针对以上问题,采用SOM-RK3399核心板作为主控设备,集成语音处理模块、STM32控制模块等,设计并实现了一种面向小学生编程教育的嵌入式开发平台,具有研究意义与应用价值。主要研究内容如下:
课程思政与专业教育有效融合是实现立德树人的重要手段。基于“视觉设计”课程的特点,从爱国情怀、中华文化传承创新、科学思维方法、工匠精神、职业素养等方面挖掘课程思政要素,修订课程标准,优化课程思政教学内容及目标,梳理思想政治教育融入点,以期推动“视觉设计”课程思政建设取得显著成效。