面向主题的双约束网页采集方法的研究和实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:luhaixiong1971
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息分布的局部专题化是互联网信息所呈现的特征之一,伴随着面向主题信息获取的需求越来越多,用户希望主题信息获取能够做到领域信息搜集更完备、更新速度更快、并能够自动发现领域内的主要资源,进而研究主题信息的变化及其分布特征。由于主题信息一般只占整个Web很小的一部分,并且具有分散性,因此传统的基于宽度优先或深度优先的搜索策略在Web信息搜集的效率上难以达到期望的要求。面向主题的网页抓取系统的主要任务是利用有限的网络带宽、存储容量和较少的时间,抓取尽可能多的主题相关网页。本文首先对通用搜索引擎的工作原理作了简单介绍,进而对搜索引擎的一些关键技术如网络爬虫、信息抽取、文本分类、网页排序等进行了阐述。接下来介绍了主题搜索引擎的工作原理,并分析了其关键技术和研究热点。随后,研究了主题搜索技术中主题特征模型的构建与更新、主题网页识别两项关键技术。接下来,本文重点讨论了主题网络爬虫的抓取策略,分别论述了基于网页内容的启发式方法和基于Web超链结构的方法。综合考虑到效率和主题漂移等问题,提出了一种新的基于网页内容和Web超链结构的双约束网页采集方法,提高搜索引擎的主题资源覆盖率,同时可以较好的避免主题漂移现象。最后,在以上研究基础上,实现了一个主题搜索引擎原型系统。该系统不仅能够准确自动地爬行到主题相关的网页,而且还可以节约网络带宽,具有良好的稳定性。通过对比,验证了系统在查全率、查准率、主题满意度等评价指标上都达到了较高水平。
其他文献
高性能计算机在征服每秒千万亿次计算能力的过程中,成功地提高了单个节点的性能和互连网络的规模,但同时也引入了许多新的问题。多核处理器和GPU等加速部件在增加了节点性能的
由于缺乏有效的激励手段,传统的P2P (Peer-to-Peer)网络普遍存在着搭便车现象以及“公共物品的悲剧”等问题,严重影响了网络的健壮性及可用性。因此,如何构建和设计合理的激
浮点乘加部件是现代高性能微处理器中的核心运算部件之一,对微处理器浮点运算性能的提升起着至关重要的作用。针对高性能浮点乘加部件所进行的优化设计研究具有广泛的实用价值
随着工业无线技术的发展,工业无线网络在过程自动化和工厂自动化领域得到了广泛应用。工业无线网络标准在实现过程中会面临成本高、难度大、稳定性差、知识产权保护和技术封锁
近年来,随着数字化产品及信息服务在家庭不断渗透并日益融合,“数字家庭”已经成为一个新的消费热点,并且迅速发展成为一个规模巨大、产业关联性强的行业。国家“战略性新兴
随着我国大力推行医疗信息化、无纸化、共享化,建立统一的居民健康档案部署规划,区域医疗信息化逐渐成为医疗行业信息化建设的重点。在区域卫生信息平台中,居民的医疗、保健
近几年,随着计算机的广泛应用,计算机视觉、图像处理及可视化技术成为非常热的研究方向,也越来越多的应用在诸如医学等其他领域内。另一方面,医学领域内的磁共振成像(Magneti
互联网的快速发展,特别是Web2.0的崛起,为用户提供了越来越丰富的网络应用和服务。这些应用包括博客、照片、视频、微博、个人网络存储等等。它们为用户带来便利的同时,也存在着
可信计算是信息安全领域的新技术,它从终端入手,从根本上解决信息系统的安全问题,它的三大主要功能是数据保护、身份证明和完整性度量、存储、报告。在可信计算中,用户对实体(如密
随着多媒体产业的迅猛发展,许多通用微处理器中都加入了SIMD扩展指令集。处理器系统需要硬件设备、操作系统和编译器的紧密耦合才能正常工作,编译器的性能直接影响了系统的整体