主题搜索引擎数据存储与更新的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:zhgjdy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着tntemet信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。本文就中文Web主题信息获取与检索技术进行了一些探讨,深入研究了主题搜索引擎中数据存储与更新技术。 本文首先介绍了搜索引擎尤其是主题搜索所涉及到的相关技术、相关理论和假设,及其的研究现状和发展前景。并论述其中数据存储与更新技术的基本理论。在此基础上本文对原型系统中的三种数据类型:URL数据,页面数据和索引数据的存储方式及其数据结构分别进行了设计,重点研究了相对比较复杂的索引数据的文件结构。其次,本文对本原型系统所用的数据更新技术进行了探讨,并提出一种新的主题搜索中的网页更新算法。在对以上两项技术进行研究的基础上,本文简要介绍了一种比较理想的农业主题搜索引擎的系统架构,并重点论述其中数据存储的实现方式及更新算法的实验结果。本原型系统主要面向农业方面,保证了对农业信息的全面收录和及时更新,避免了大量的搜索噪音,提高了检索效率。 本文最后总结了所做的研究工作及原型系统的开发经验,并指出了下一步工作的研究方向。
其他文献
随着3G技术的不断发展,基于IMS(IP Multimedia Subsystem,多媒体子系统)的Push—to—X技术受到越来越多的关注。Push—to—Voice作为Push—to—X的一个重要分支,主要实现语音查
关联规则挖掘是数据挖掘中研究较早而且至今仍最活跃的研究分支之一。本文正是在这种背景下而研究的。关联规则挖掘是从大量的数据中挖掘出有价值描述数据项之间相互关系的有
遍布全球的互联网正在无时无刻、无所不在的渗透到人们的工作、学习和生活当中。从企业的信息化、商业的智能化到科教卫生等各个领域都可以找到互联网的影子,“互联网”这个词
机器翻译(machine translation,MT)是自然语言处理(nature language processing,NLP)的一个分枝,它是利用计算机把一种自然语言翻译成另一种自然语言的技术。机器翻译一直被认为
生物系统的复杂性使得基因之间的关系呈现出多样化,其中一种关系为活化关系,即某些基因(调控基因)可能控制或活化别的基因(被调控基因),这样后者的表达将滞后于前者。通过比较基
电子数据采集(EDC)是现代临床研究不可或缺的一种现代化研究手段,无论是在国外还是国内都已经得到了普遍的应用。而对于临床研究来说,准确而迅速地采集并处理数据是至关重要的,
Manet网络也即移动Ad H0c网络(Mobile Ad hoc Network),它是由若干节点所组成的一个无线移动自治系统。在一个无线Manet网络中,节点之间通过多跳的无线链路相互通信,这样所有的
目前,电信业竞争激烈,移动运营商在不断地寻找新的途径去创造新的利润点或者利润增长点。在各种移动增值业务当中,无线定位业务又称为位置业务(LBS),是由移动通信网提供的一种增
2008年北京奥运会后,体育竞技项目越来越受人们欢迎。但如何更好的运用图形图像技术来实现运动员的各种运动信息的展示,也成为一个越来越热门的研究领域。冬季奥运会上的花样滑
信息时代,人们对教育提出了新的要求,Internet远程教学作为一种新的教学模式正备受关注。与传统的教学相比,基于Internet的远程教学不受时空环境的限制。它符合现代人才培养的需