基于主题策略的网络爬行器算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:liu7605136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,人们越来越多地通过搜索引擎来实现信息的获取。从海量数据中获取信息越来越困难,搜索引擎最核心的技术是网络爬行器方法,对网络爬行器的研究、改进成为关键。为解决搜索引擎遇到的诸多难题,已经产生了目录搜索引擎、通用搜索引擎、元搜索引擎、主题搜索引擎、人工智能搜索引擎等研究领域。本论文介绍了搜索引擎的组成及网络爬行器的主要原理,结合网页评价方法分析了基于主题策略的网络爬行器技术和网页隧道穿越技术,对比阐述分析了现有的网络爬行器的关键算法,如Pagerank算法、HITS算法、Fish Search算法、Shark Search算法、Best First算法、A*算法等。在现有的算法基础上,提出新的一种评价网页重要性的方法,将网页链接分析和内容相关度结合起来,构造网页核心度公式和网页辐射空间,并尝试将网页辐射空间与隧道穿越技术结合起来,并进行了数学推理证明,给出了几个关于搜索的定理证明,提出了一种基于主题策略的启发式搜索蛙跳算法。最后,利用一种通用的主题爬行器搜索策略性能评价系统进行了实验论证,对比分析了现有算法与启发式搜索蛙跳算法性能。本论文创新之处首先在于提出了新的网页辐射空间的概念,将传统的网页重要度计算方法PAGERANK与HITS进行结合,文本内容的相似度计算方法仍然作为分析评估网页内容的重要手段。网页核心度具有更加广泛的意义,相比单一的网页链接数计算或网页内容相似度计算,虽然计算量增加了,但是搜索范围却大大缩小了,搜索精度也相应提高,满足了主题搜索的性能要求。第二个创新工作是对网页隧道穿越算法的研究。因为局部信息可能被淹没在全局信息之中,传统主题爬行算法没有区分全局相关性与局部相关性,将一个训练好的分类器作用到比其更宽泛的主题网页上,通常会得到不相关的判断结果。本论文将网页隧道穿越分为两种类型:主题相关隧道穿越(connected tunneling)和主题非相关隧道穿越(non-connected tunneling),并提出了相应的算法。第三个创新之处是将启发式搜索A*算法应用到主题爬行中,结合网页辐射空间方法和网页隧道穿越技术进行了启发式函数的改进,提出了新的启发式搜索蛙跳算法。数学推理及实验结果表明,本论文提出的启发式搜索蛙跳算法在减少查找响应时间的同时,提高了查全率和查准率,使主题搜索引擎的性能有较大改善。
其他文献
长期以来,网络上存在着大量异构的数据库,它们的异构性表现在多个方面,如数据库模式,数据的表示,支持数据库的DBMS等。随着企业信息化和政务电子化的发展,许多信息系统需要访
本文的目的是建立一个在GPRS通讯网络中的数据压缩模型。GPRS网络中无线信道的带宽是整个通信系统中最宝贵的资源。然而,由于层次性互联网传输协议框架中各层协议的封装,协议
随着海洋科学研究的进展,众多研究机构获取了大量有价值的数据。但是,用于描述这些数据的术语普遍存在着一词多义、多词一义和多语言等问题,增加了数据共享的难度,阻碍了国际
谷歌安卓占据巨大的市场份额且逐年增长。面对如此庞大的用户市场,安卓安全问题也变得更加严峻。在目前的各类恶意应用软件中,虽然扣费软件占据恶意应用的绝大部分,但是窃取用户
通信电源作为电信网络正常运行的关键,是企业本地网管监控系统重点监管网元设备之一。由于历史原因,在现有通信网络中实际存在“多厂家、多型号、多协议”的品种繁杂的通信电源设备。在构建网管系统时,需要针对不同协议的设备开发不同的监控数据采集模块,这将必然导致系统的开发周期长、升级推广困难。针对系统当前所面临的问题,依据中间件理论和面向对象技术高度抽象监控模块处理逻辑,设计并实现了通信电源协议适配池组件模块
近年来,尽管我国对交通基础设施投资巨大,但道路里程的增加仍满足不了快速增长的车辆出行需求;加之其它相关因素的影响,如驾驶员素质、道路环境、车辆性能等,导致目前我国交
针对WebGIS客户端可复用性和功能可定制性要求,论文设计了一个基于AJAX的组件式WebGIS客户端框架结构,采用JavaScript语言实现了一个基于AJAX和组件的织女星灌区地理信息系统
CAI是以人工智能科学、认知科学、计算机科学、教育学和心理学为理论基础发展起来的一种计算机应用模式。它是计算机应用技术的一个新领域,又代表了一种新的教学思想和教学手
学位
隐写技术是将秘密信息隐藏在载体中,尽可能不引起第三方怀疑地通过公共信道发送出去;隐写分析是隐藏信息检测的一个重要分支,主要是针对图象、声音、视频等多媒体数据,在对隐