搜索引擎的数据索引与检索研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cnmSymbian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,网上信息资源原来越丰富,网络已经成为人们获得信息的必要途径和重要手段,但网络信息具有海量、分布、动态变化和结构复杂等特点,使得用户无法有效利用庞大的信息资源.为了解决这个问题,搜索引擎就随之诞生.搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务.搜索引擎经历了近十年的发展,一方面极大地改善了人们在网络中进行新信息检索的手段,另一方面由于种种原因在信息收录完备性、查全率、查准率、检索功能等方面还存在许多不足之处.该文首先回顾了搜索引擎的发展历程,说明了搜索引擎的组成模块、工作原理和关键技术.结合搜索引擎技术的发展趋势和自然语言处理技术的现状,对搜索引擎中技术进行了以下三方面的研究:1、在搜索引擎中应用自然语言处理技术提高系统表现.讨论了中文自动分词、文本分类等技术对提高中文搜索引擎检索效率和精度的影响.2、全文检索系统数据索引和检索的优化方法.研究了全文检索系统的索引组织结构——正向索引和倒排索引的工作原理和优化方法,并对如何对海量信息进行有效的组织和压缩,以减少存储空间,提高检索效率进行了深入探讨.3、信息检索系统中相关度计算方法.介绍了当前国内外相关度计算方法,并对其优缺点进行了深入地探讨.在此基础上提出了基于cover为单位的信息检索策略,该方法突破了传统相关度计算以完整文档为计算单位的思路,将文档中查询词出现密集的最短子片断作为计算单位,并采用统计和语义信息相结合的方式获得相关度信息.该方法在InsunQA系统中起到了很好的表现.在以上技术的基础上,该文将介绍InsunQA中搜索引擎子系统的设计实现.
其他文献
本文对虹膜及指纹图像基于整数小波变换的形态学零树压缩编码进行了研究。文章针对于虹膜及指纹的纹理特征,提出了虹膜及指纹图像基于整数小波变换的形态学零树压缩编码算法。
WebGIS应用中存在的主要问题之一是不能很好地解决大容量空间数据在网络中的处理和传输。有些WebGIS系统采用在客户端显示栅格图片的方法,此方法为了满足无极缩放显示的要求,
随着经济的全球化,市场的竞争越来越激烈,企业面临着缩短交货期、提高产品质量、降低成本和改进服务的压力,在这种环境下,供应链管理成为了近年来逐渐受到重视的一种新的管理
作为计算机科学、电子工程学、生物学的交叉学科,演化硬件结合了许多其他领域的知识,如EDA、复杂系统和自适应算法等.该文综述了当前演化硬件技术的进展,阐述了演化硬件的基
当今互联网中许多服务是基于C/S(Client/Server mode)模式,服务器往往成为攻击者攻击的主要目标。传统安全防护中,攻防双方处于不对称状态,攻强防弱,同时攻击活动对目标主机
随着网络和通信技术的发展,以软交换为核心的下一代网络NGN(NextGeneration Network)技术成为网络发展的必然趋势.作为NGN重点业务之一的VoIP(Voice over Internet Protocol)
该文首先介绍了粗糙集产生的背景以及粗糙集的一些基本概念,并将粗糙集与其他几种处理不确定性理论作了比较,同时对粗糙集的发展、知识发现以及粗糙应用于知识发现的优点作了
关联规则是由R.Agrawal等人于1993年提出,关联规则挖掘是数据挖掘的一个重要的分支,其经典算法是Apriori算法,用于挖掘布尔型频繁项集,但是该算法存在在对大型数据库的挖掘时
本文分析了现有应用集成方案存在的不足以及当前Web技术发展的新趋势,研究了当前的Web Services技术原理和特点,探讨了Web Services技术在应用集成方面的优势,提出了一种基于Web
本论文以现代铁路组织原理为基本设计思想,综合当前最新的信息管理技术和网络结构体系系统,致力为铁路客运生产信息的管理,设计和实现一套包括硬件和软件基础平台,方便、实用、高