基于多层向量空间的语义信息检索研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:byddr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息在当今社会中占据着越来越重要的地位。可靠精确的信息,能够提高工作效率,缩短工作时间,有助于增强竞争力,做出科学的抉择。信息检索作为捕获用户需求信息的一种重要手段,已经逐渐被越来越多的人所关注。然而,传统的信息检索模型性能低下常常会出现错查和漏查的现象,检索出的结果很大程度上不能符合人们的检索意图。针对信息检索中出现的问题,本文对信息检索进行了相关的改进和研究。本文首先介绍了信息检索的原理,对传统的布尔模型、向量空间模型和概率模型进行了分析与比较。其中向量空间检索模型考虑比较全面,而且也是目前使用范围最广的传统检索模型。本文以向量空间检索模型为基础对其进行研究和改进。传统的向量空间模型将检索文档和查询语句中关键词看成彼此之间相互独立且没有语义关系的词汇。同时,文档不同部分对其主题思想的贡献程度是有差别的。传统向量空间模型并没有对出现在文档中不同部分的关键词进行区别对待。借助领域本体对检索进行语义扩展。本体包含概念的层次结构,支持对概念间关系进行推理。这就使得计算机可以理解人类的思维,方便人与计算机之间的交流。本文对本体的概念以及相关理论进行了介绍,重点分析本体在信息检索中的作用,给出基于语义扩展的信息检索模型。基于语义扩展的信息检索是建立在领域本体基础上的语义信息检索。传统的向量检索模型是在语法层面上依据字面的简单机械匹配,而基于语义扩展的信息检索则可以上升到语义层面上。基于语义扩展的信息检索分析检索文档和查询语句的语义信息,经过语义推理,深度发掘文字下面的语义信息和它们之间的关系,弥补传统向量空间检索在语义方面的不足。在文档结构方面,本文借鉴多层向量空间模型的思想。依据各部分在文档中重要程度差别,采用分层方法,将文档分为不同的文本段,以文本段为单位,进行文本段内的关键词权重计算。根据文本段重要程度不同,对相似度系数进行适当的调整,以便更好的反映文档的特征属性,实现对文档和检索语句之间关系的真实反映。将语义信息检索与多层向量空间信息检索的结合起来。针对传统向量空间检索模型中存在着文档语义理解的缺失和文档结构区分不明确的不足,本文提出一种基于多层向量空间的语义信息检索模型及其算法,很好的将基于领域本体的语义信息检索和基于多层向量空间的信息检索结合起来,并提出与之相关的一些理论和方法。此外,基于多层向量空间的语义信息检索模型采用改进后的tf - idf公式作为权重计算的公式,使得权重计算考虑的因素更为全面。在实际检索过程中,不再拘泥于文本段固定的划分格式,而根据文档不同部分的可行性,适当的选取适合该文本段的计算方法。最后通过实验说明新的模型和方法在检索结果上的可行性。
其他文献
搜索引擎在越来越多的海量的信息资源中的检索,没有考虑用户的个性化需求,而是查询某一关键词时,返回的结果往往都是一致的,不能为每个用户返回其所需的特定信息。   个性化推
高光谱遥感是对地观测的主要手段之一,同时亦是目前遥感领域的研究热点。随着硬件设备日新月异的发展与采集数据的不断丰富完备,高光谱图像分类得到了广泛应用,涌现出了很多通用与专用的分类算法,以及特定的集成系统。但是高光谱图像分类在算法层面与系统层面仍面临着很多挑战,比较突出的有:高光谱图像维数过高和标记样本相对较少之间的矛盾以及由此产生的统计困难与维数灾难;常用的统计机器学习算法在高光谱图像分类应用中面
学位
近年来,图像分割技术是人们研究图像分析、模式识别和图像理解中的一项非常关键的工作,如何进一步提高图像分割结果的精确性一直是图像分割技术中的关键问题,也直接影响到后
电能表是我国电工仪表行业中产量最大的产品,随着高新技术尤其是电子信息技术的快速发展,电子式、多功能、高精度、自动抄表等产品的优势突显,且已经逐步成为电能表发展的主
双语平行语料在计算语言学和自然语言处理研究领域具有广泛的应用,它为统计机器翻译模型提供不可或缺的训练数据,同时也是词典编纂和跨语言信息检索等应用的重要资源。然而,
SaaS(软件即服务)是随着互联网发展形成的一种新的软件应用模式。基于SaaS的报表工具系统是新一代的报表工具软件,可以云服务方式高效、灵活、经济地来提供各种报表服务。本
随着IT技术的不断发展,企业出现了许多基于Web的应用系统,这些系统在开发语言、部署平台、通信协议等方面存在很大的差异,如何将各个应用系统跨平台地无缝集合在一起,成为企业亟
本文中的微系统是泛指尺寸比较微小、在通常状态下用肉眼难以直接观察的系统,其含义较为宽泛,除了包含传统意义上的微机电系统(MEMS)外,还可以包括模式生物学领域中细胞群体组成
面向服务体系结构(SOA)是继面向对象、基于构件开发之后的一种新型软件开发、部署和集成模式,为软件开发提供了灵活的设计和开发方案。Web服务作为SOA的一种实现方法,突破了
最近几年,图像显著性检测是计算机视觉领域研究的热点。图像显著性检测的目的是能够将图像中感兴趣的目标区域自动地检测出来。对目标区域的检测精度与检测效率将直接影响到