【摘 要】
:
通用搜索引擎,在很大程度上解决了人们在Web上查找信息的困难,但是随着信息多元化的增长,也存在着种种不足。如:查准率查全率低、内容相对陈旧、信息分布不平衡等。因此,主题
论文部分内容阅读
通用搜索引擎,在很大程度上解决了人们在Web上查找信息的困难,但是随着信息多元化的增长,也存在着种种不足。如:查准率查全率低、内容相对陈旧、信息分布不平衡等。因此,主题搜索引擎应运而生,它专门为某一特定领域、某一特定人群或某一特定需求提供有一定价值的信息和相关服务。主题爬虫是主题搜索引擎的信息采集部分,负责对用户感兴趣的某一主题的网页进行抓取。因此,主题爬虫得到越来越多研究者的关注。本文对爬虫的工作原理和相关难点进行了分析,设计了主题爬虫的架构。通过对几种经典的主题采集策略的深入研究,提出了一种新的策略。该策略由页面主题判定和Url主题预测组成。页面主题判定是采用文本分类技术对已抓取到的网页进行主题相关性判定从而决定网页以及链接的取舍,Url主题预测为下一轮抓取选择主题相关的Url。将该策略应用到主题爬虫中,并对主题爬虫的种子注入、抓取、解析、文本训练、页面的主题判定、Url更新及主题预测几个组成部分加以实现。实验结果证明:主题爬虫能够稳定运行,并且与普通爬虫相比,有着更好的收获率。利用主题爬虫极大地减少了时间和存储空间,在时间上的优势保证了网页的及时更新。而且由于采集的内容单一,用户查找时得到的冗余和无用信息也较少。
其他文献
互联网加快了全球化的步伐,企业也加快了信息化建设的步伐,在信息爆炸的时代,资源共享将进一步得到加强,随之而来的信息安全问题也显得越来越重要,成为当今研究的热点。如何
在网络化多层结构的大型应用系统中,软件各层次和网络上数据交互速度快慢是软件性能的关键问题之一。本文针对基于数据库的应用系统,通过分析系统的数据访问特征和系统网络结
物体检测作为一个具有较高挑战性的问题,它的难点主要在于不同类别的物体之间有较大的差异性,即使对同一类物体来说,拍摄视角、物体位置、物体形变等方面的差异也会对检测结
随着信息技术的迅速发展,XML在各个领域的应用越来越广泛,这给XML数据的存储和管理提出了迫切的要求。XML数据是一种半结构化数据,很难直接而有效地存储在关系数据库中。而存
站内搜索引擎是找出网站重要信息的必要工具,高效的站内搜索将有助于提升网站的价值,发挥网站应有的作用。虽然现在一些网络巨头已开始研究并应用这类工具,但整个互联网行业中,受
随着科学技术的不断发展,机器人将越来越多地被应用于工业、农业、国防、科学实验及服务业等人类社会的各个方面,其中移动机器人就是机器人学的一个重要的分支,由于它本身具
目前,数据存储领域的很多技术还处于研究阶段,从最初的直接连接存储模式发展到现今的网络存储模式,数据存储逐渐成为人们的研究热点。网络存储由于所采用的技术和协议不同,逐
计算机和网络技术的飞速发展给教育拓展了新的发展空间,各种学历教育、基础教育等所组成的网络教育市场迅速发展,网络教育成为网络应用研究的热点之一。本文针对中小企业对电子
操作系统安全是信息系统安全的基石。40多年来,安全操作系统得到了长足的发展,并在访问控制框架和安全模型方面均取得了丰硕的成果。但是,纵观安全操作系统的发展历史,可以发现安