领域搜索引擎语义检索模型的设计与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:renminjie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对网络上海量的信息,搜索引擎已经成为我们获取网络信息的主要入口。目前的搜索引擎主要采用基于关键词的匹配来获取Web上的相关信息。但是,一方面Web上信息的巨大数量及其丰富多样的特点使得采用该方式将得到大量与需求无关的信息,另一方面,基于关键词匹配的检索无法对检索的语意充分表达也造成了搜索引擎对用户查询需求的“误解”,进一步影响了使用搜索引擎查询信息的准确率。 评价一个搜索引擎的两个指标是查全率(Recall)和查准率(Precision)。而对于当前的搜索引擎来说,面对网络中海量的信息,每一次搜索所返回的信息量已经通常都会非常的巨大,但是返回信息与用户的期望之间的查准率却无法尽如人意。本文从可以提高这两个指标为目标,以可以提高查找信息准备的聚焦搜索为基础,设计和实现了一个完整的语意检索模型。 首先,应用当前的聚焦爬虫、专业词库等技术,对信息有针对性的采集及过滤,从而在一定程度保证了所采集信息相关度的相对集中。 然后,利用已采集信息中较为典型的数据作为分析的数据源,获取一定语境之下词语同现的基本数据,构建同现二维表,并通过相应的处理来优化二维关系表。 在进行信息的检索时,主要利用相关二维表所体现的词语之间的关系,从而使搜索引擎具备一定的理解能力,从语义上进行信息的查询,提高搜索引擎查询的准备度。 本文通过对Apache全文检索系统Lucene源码的剖析和实践,理解Lucene的系统组织结构、基本数据类型、索引内存结构以及索引数据库的文件结构;在对Lucene重要类UML类图进行分析后,深刻理解其索引过程以及索引方式,掌握了索权重的控制和索引优化的方法与增量索引方法,实现了领域搜索引擎的检索部分功能。 最后,本文通过以上述方法构建的系统进行性能分析,得到了一个较好的结果。
其他文献
随着图结构在复杂数据建模方面的广泛应用,图数据库技术得到了快速发展。如何从图数据库中快速检索数据已经成为一个研究热点。在图查询中,子图匹配查询和相似性查询是两种重
近年来,P2P网络受到广泛的关注并发展迅速,而资源搜索是P2P网络的关键技术之一,如何高效地搜索网络资源是P2P网络的研究重点。本文主要从资源特征分类、资源密度、资源热度等方
无线传感器网络集传感、数据处理和无线通信于一身,通常被部署在各种恶劣环境中进行信息获取和收集任务。在军事国防、环境监控、工业管理等各方面都具有十分广阔的应用前景。
随着计算机软硬水平的不断提高,嵌入式领域的发展也取得了长足的进步。目前,嵌入式与Linux技术的结合正在推动着嵌入式技术的飞速发展,嵌入式系统的研究和应用产生了显著的变
随着电子政务应用的不断深入,使得政府部门的工作方式发生了巨大的变化。电子政务给政府工作带来方便和高效率的同时,也带来许多安全问题。如何保障在信息安全的前提下提高政
随着Internet的发展,国际互联网(Web)已经成为人们信息共享与信息传播的主要媒介。对Web网络结构特征和演化规律的探讨成为Web网络研究的重点,建模则成为主要的研究方式。本文
网络的快速发展导致网络攻击行为日益增多,网络安全问题愈发严峻。网络流量异常检测作为一种重要的网络监管手段,是解决网络安全问题的有力措施。在实际工作中,我们观察到异
在水泵计算机选型软件或水泵专家系统开发中,需要使用到水泵性能曲线图来确定所需泵的型号或研究水泵的工作状况。水泵性能曲线,是根据该水泵在实验室中通过实验测试出的一组
随着经济全球化进程的推进,越来越多的用户或者业务需求超越了传统的组织界限,要求多个组织协同完成,跨组织业务流程管理应运而生。由于跨组织业务流程的业务结构复杂且涉及到多
人脸检测由于它的学术价值和应用范围,越来越受到人们的关注。其中自适应自举学习算法(AdaBoost)将人脸检测带入了实用领域。人脸检测的任务是从静态图像或视频中定位人脸的