融合主题语义的信息检索模型研究

来源 :华中师范大学 | 被引量 : 1次 | 上传用户:pandaab
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
处在信息时代,信息搜索成了人们生活不可缺少的部分,背后支撑的信息检索技术尤为重要。传统的信息检索模型通过匹配文档和查询中词项返回相关文本,其中关键之一在于统计显式的词频特征,但词频规范化通常含有超参数需要优化。基于传统检索模型的词项关联(或依赖)模型以及传统的伪相关反馈模型绝大部也是在统计显式的词项特征,这样容易导致匹配失败。为了解决这个问题,研究者们开始在信息检索中使用主题模型来挖掘文档和词项的隐式语义特征。主题模型生成一种概率分布,很自然地将主题模型引入语言模型框架并取得了一定的成功。但如何将文档和词项的主题语义简单有效地融入到著名的传统检索模型(如概率模型)和伪相关反馈模型尚不明确。针对这些不足,本文分别研究了概率模型BM25中的词频规范化方法、融合词项主题语义的检索模型、融合文档主题语义的重排序检索方法和伪相关反馈技术,主要的研究工作如下:(1)提出了一种基于查询长度词频规范化的概率信息检索模型BM25QL。在概率模型BM25中,规范化词频是一个重要组成部分,由两个参数k1和b控制,通常需要在给定的数据集上优化它们。经验地发现查询长度对词频规范化的影响可以优化检索性能,通过数学理论分析和推导,提出了基于查询长度词频规范化的概率检索模型BM25QL。同时,将BM25QL的词项权重融入BM25框架下基于词项邻近度的先进模型CRTER2获得新的检索模型CRTERQL。在14个标准TREC数据集上的实验结果表明,所提出的BM25QL模型和CRTERQL模型在绝大部分数据集上的MAP值可以与具有最优b值的BM25模型和CRTER2模型相比较。(2)提出了一种融合词项主题语义的信息检索模型框架TopIR。传统的信息检索模型基于词袋模型假设,只能捕获词项的显式统计特征。而主题模型可以发现词项的隐式主题语义特征。将词项的显式统计特征和词项的隐式主题语义特征作为查询词项的两种不同类别的特征,提出了一种融合词项主题语义的信息检索模型框架TopIR。特别地,将LDA主题模型分别融入概率BM25模型和BM25QL模型、向量空间的MATF模型和语言模型LM,相应地获得了四个检索模型:LDA-BM25、LDA-BM25QL、LDA-MATF 和 LDA-LM。在 14 个标准 TREC 数据集上的实验结果表明,相比于对应的基础模型,所提出模型在所有数据集上的MAP值都有了显著的提高,且在大部分数据集上的P@5值和P@20值也有显著的提高,并至少可与代表当前水平的模型CRTER2和LBDM相比较。(3)提出了一种融合文档主题语义特征的重排序框架TopRerank。对第一次检索返回的前1000篇文档主题建模可以大大地降低基于主题建模的检索模型复杂度。将返回文档与排序前3个文档的平均主题相似度作为文档与查询之间的主题语义特征的近似估计,融入传统检索模型对返回文档集进行重排序,扩充了基于主题建模的检索模型。在15个标准TREC数据集上进行了实验,结果表明所提出的融合文档主题语义特征的重排序方法在所有数据集上的MAP值和NDCG值显著优于对应的基础模型,而且不亚于代表当前水平的TopIR全局检索模型。(4)提出了一种融合文档主题语义的伪相关反馈框架。传统的伪相关反馈主要通过查询扩展提升检索性能。扩展词项的选择主要基于词项在反馈文档集中自身的特征,平等对待每个反馈文档,没有考虑文档与查询的相关度。本文基于主题空间提出了一种通用的文档主题相关性度量,定义为扩展词项从反馈集中文档选择的可能性,将其统一地融入经典的伪相关反馈模型。特别地,将文档的主题相关度融入Rocchio模型和RM3模型,相应地得到了两个伪相关反馈模型TopRoc和TopRM3,同时探索了文档主题相关度的两种计算方法。在五个TREC代表性数据集上的实验结果表明,所提出的模型在所有数据集上的MAP值都优于相应的基准伪相关反馈模型。特别地,所提出的TopRoc模型在四个数据集上的MAP值都有了显著地提高,而且至少可以与代表当前水平的伪相关反馈模型TopPRF相比。
其他文献
明清以来,家训功能由“提携子孙”的“范家”发展到“医世良药”的“范世”,家训(族规、乡约、乡规等)与乡村自治结合、与法律互补,推动着乡村社会的发展。本文按照“个体、家庭、家族、乡村”的思路,以岭南著作、人物传记、族谱、祠堂、石碑等保存的家训为基础资料,探索明清时期岭南家训与个人、家庭、家族、乡村社会之间互动关系。绪论部分对文章涉及概念进行界定,本文首次对明清岭南家训史料进行全面的、系统的整理与研究
在现代,技术已经成为人类社会生活的一种决定性的力量,我们在充分享受技术手段的发展给我们生活带来便利的同时,也时常困惑和恐惧权力通过技术对个体的压制和规训。事实上,权力和技术从未分开过,权力总要通过一定的方式、方法来表达并发挥作用。如果把目光聚焦在社区场域,我们会发现社区内一直存在着两种权力形式:行政权力和社会权力。总体性社会下,国家在治理基层社会时,对行政权力的过分追求,导致了诸多现代性的后果。居
当今时代,随着各社会群体及其成员在经济社会发展中的变动,社会利益结构已发生了快速变迁,各社会群体正在分化、解组,重新整合,并由此呈现出碎片化趋势。社会分化的加速导致社会异质性特征日益凸显,反映在思想政治教育领域,则是原来以“单位”为集合群体的思想政治教育对象出现了高度分化,以及与之相伴随的思想价值观念多元化、碎片化,这给本就饱受实效性争议的思想政治教育事业带来了多重危机。正因为如此,思想政治教育学
矛盾是马克思主义哲学的一个基本范畴,也是我们认识世界的基本观点。在各种矛盾中,社会主要矛盾因为发挥着决定性的作用,其地位最为重要。社会主义社会是以生产资料公有制为基础的,这种新的生产关系决定了社会主要矛盾的性质是生产与需要之间的矛盾。生产力的发展推动着生产与需要这对主要矛盾随之发展和变化,随着对其研究和把握的不断深化,科学社会主义的理论与实践得以持续推进。坚持对社会主要矛盾的变化进行研判,并以此作
散射理论是应用数学物理中特别活跃的领域之一,在医学成像、无损探测、地震勘探等众多领域中有着广泛的应用.散射理论的研究主要分为正散射与逆散射两个部分:正散射问题研究满足一定边界条件的Helmholtz方程或Navier方程的边值问题的适定性;逆散射问题是从散射场的远场信息或其它测量数据来反演障碍物的位置、形状、内部结构和物理参数等.在实际应用中,散射体往往是相当复杂的,本论文我们分别考虑了声波、弹性
高校党建工作是新时代党的建设新的伟大工程的重要组成部分,也是落实立德树人根本任务、加快推进双一流建设、实现高等教育高质量发展的基础工程。加强全媒体时代高校党的建设、提升党建质量,是新时代贯彻党的教育方针、加强高校思想政治工作、全面落实“三全育人”“为党育人、为国育才”的必然要求。随着我国改革开放的不断深入、现代信息技术的快速发展,高校思想政治工作的环境、主客体、方式方法等因素都在发生了深刻变化,青
近几十年来,随着全球化的急速发展和信息技术的日新月异,知识的传播和获得,也有了极大的变化。在这背景下,世界各地都进行了教育改革。作为一个开放型的地区,香港特区也加入了这一波教育改革的浪潮之中,并从教育制度、课程内容、以至教学方式和评价机制等方面进行改革。与此同时,特区政府建议在学校层面开发校本课程,认为学校应根据特区课程的基本要求,加以调适,以开发本身的校本课程,从而帮助学生达到教育的目标和宗旨。
机器解答是智能化教育领域中的一个重要研究问题,它旨在研发自动理解和自动求解多模态题目的智能解答算法,使目标题目得到正确的解答。本文从机器解答领域中一个基础题目的解答任务出发,探索和研究一套准确度高、扩展性强的机器解答方法。现阶段的机器解答方法仍然以传统的框架解题法和语义解析法等为代表,这些方法不仅需要设置大量的规则模板来理解复杂多变的题目文本,而且缺乏隐含信息的挖掘,导致题目的解答效率较低。深度学
学位
为了改善日益拥挤的交通条件,出现了车联网(IoV)技术。在车联网技术中,智能车辆应用的爆炸性增长催生许多计算任务量大以及延时敏感的任务,例如自动驾驶,实时路况等,其最终目的是使人们的生活更加方便便利。然而,那些有前途的应用通常都需要处理大量数据,需要很高的计算能力,但是,由于每一辆车的计算能力有限,车辆自身很难完全满足任务所需的要求。为了应对这一挑战,现有的文章提出了车辆到所有(V2X)通信是一种