一种可扩展的面向中文主题搜索引擎的研究与设计

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:redpig
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向主题的搜索引擎是一种分类精确细致、更新及时的搜索引擎,是搜索引擎的细分和延伸。随着Web信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。与通用搜索引擎相比,主题搜索引擎由于检索范围较小,查准率和查全率易于保证。本文的研究对象是Web这样的动态海量信息载体,研究的主要目的是要得到一种支持海量网页信息搜集、具有健壮的网页预处理、并提供相应规模的索引和查询接口的中文主题搜索引擎系统。本文所做的可扩展性工作主要体现在网络蜘蛛信息搜集和查询服务实现两方面。基于对网页性质及其分布的认识,本文提出一种可扩展网络蜘蛛信息搜集系统体系结构。系统可以让用户根据自己对信息的兴趣,配置用于引导系统搜集的主题导向词,以及搜集范围。同时,尽可能地使用和遵循现有的标准和协议。在不需要改动或改动很少的配置的情况下,适用不同主题的信息抓取。搜集系统力图在搜集策略、开放性、可定制性等方面得到一个很好的折衷。网络蜘蛛采用Fish搜索算法动态地调整爬行方向,从而保证了抓取网页的主题相关性。网络蜘蛛的可扩展性主要体现在种子链接发现、增量式抓取、多线程和限定抓取类型等。实验结果表明,网络蜘蛛具有较强的抓取能力,很好地解决了搜索引擎的数据来源问题。针对网络蜘蛛搜集来的主题网页进行一系列的预处理,抽取其中的网页URL、标题、正文内容、锚文本等。针对网页URL编码的不同而造成的网页乱码现象,采用统一的字符集和编码方案。设计一个中文搜索引擎,索引创建需要一个高效的倒排算法。本文从索引文件本身出发,采用分级的倒排表索引组织结构,提高了索引创建的效率。本文还结合中文分词技术,构建一定规模的词库,尝试解决中文搜索引擎存在的查准率和检索精度问题。在查询服务阶段,增量和合并的配置策略对索引进行了扩展,实现索引文档的动态更新。本文结合Lucene索引包特点,在达到索引合并阈值时,通过微调Lucene内置参数,有效避免频繁地改动和合并大索引块。同时,本文还给出基于Ajax技术的搜索引擎异步模式,这样极大地丰富了Web的表现力,也因此提高了搜索引擎的效用性。
其他文献
在军事应用和工业控制等领域,不同环境下的计算机系统可能会安装着支持不同标准的、不同特点和不同性能要求的现场总线设备。与此同时,虽然制定有现场总线的国际标准,但是由
故障诊断是一门新兴的交叉工程学科,为工业企业的成功应用带来了巨大社会和经济效益,使得设备故障诊断技术从理论研究到实际应用都有迅速的发展。特别是嵌入式技术的飞速发展及
由传感器、微机电系统和网络三大技术融合而形成的无线传感器网络是一种全新的信息获取和处理技术。而无线传感器网络是计算机科学和技术的一个新的研究领域,由于其广阔的应
本文介绍了井下机车调度系统的的发展现状、发展趋势。介绍了建模工具Petri网的来源以及特点,同时对Petri网的理论进行了系统的介绍。由于矿井机车运输监控系统是典型的离散事
计算网格系统实现了不同地理分布的异构资源的共享、选择和聚合,以解决在科研、工程、经济学等领域大规模的计算问题。网格资源的异构性和地理分布性使得在大规模分布环境中的
随着互联网技术的发展和应用软件的成熟,将软件作为一种服务形式提供给客户的需求逐渐增加,对新型软件交付技术的研究已经成为当下的趋势,而SaaS(Software as a Service)这个
自Web创始人Tim Bemers-Lee提出Semantic Web(语义网)的架构以来,本体(Ontology)作为计算机理解信息的智能化基础,成为了近年来的研究重点。然而,由于时间,地点,构造目的以及
随着科学的发展和计算机的普及,人们对与计算机的交流方式提出了更高的要求,这促进了语音识别技术的发展,并使之成为语音处理领域中的一个重要研究方向。目前,在实验室环境下,语音
在软件开发过程中,变化影响分析是一项非常重要的技术。这项技术可以用于分析得到一个阶段中代码的改变(增加新代码,删除旧代码,修改源代码)对整个程序所产生的影响,并且将这
Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富。通过对Web的挖掘,可从Web页面中提取所需的知识:对总的用户访问行为、频度、内容的分析,可得到关于群体