基于领域本体的聚焦爬虫技术研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户：zlongtime

【摘要】

：

Web信息量的急剧猛增以及广大互联网搜索用户信息检索需求的不断提升,使得搜索引擎技术由原来的面向全体互联网用户,提供公用信息服务的通用搜索引擎发展到面向特定领域,为用

【作者】

：

崔其文

【机构】

：

山东科技大学

【出处】

：

山东科技大学

【发表日期】

：

2009年期

【关键词】

：

聚焦爬虫领域本体 Hits算法向量空间模型最佳优先算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web信息量的急剧猛增以及广大互联网搜索用户信息检索需求的不断提升,使得搜索引擎技术由原来的面向全体互联网用户,提供公用信息服务的通用搜索引擎发展到面向特定领域,为用户提供专业信息服务的垂直搜索引擎。相应地,在通用爬虫技术研究的基础上,也需要进一步对聚焦爬虫技术进行研究。论文首先对搜索引擎和垂直搜索引擎、通用爬虫和聚焦爬虫的相关概念、体系结构及工作原理做出了介绍和讨论。然后,从抓取目标的描述、网页分析算法和网页搜索算法三个角度对传统的聚焦爬虫关键技术进行了分析,为进一步的研究打下了铺垫。论文重点对基于领域本体的聚焦爬虫技术进行了深入研究。主要的工作与论点如下:(1)论文讨论了被用作聚焦爬虫主题模型的领域本体的设计、构建和更新方法。从路径距离、语义重合度、语义深度、语义密度和概念属性几个角度,研究并改进了领域本体概念语义相似度的计算方法。(2)论文提出一种基于领域本体概念语义相似性的主题相关度计算方法,通过对向量空间模型中的网页文档向量进行语义扩展,使聚焦爬虫对网页的分析具备了一定程度的概念语义特性,提高了聚焦爬虫的查全率和查准率。(3)论文提出一种面向主题的改进的Hits算法,它从URL字符串、锚文本、扩展锚文本及父页面主题相关度几个方面来分析链接基于内容的主题相关性。然后,将基于内容的分析加入到传统的基于网络链接结构的Hits算法中,使其在综合考虑网页内容和网络链接结构的前提下得到了很大程度的优化,削弱了主题漂移现象。(4)针对Web Community和隧道现象所造成的最佳优先算法只能做到“局部最优”的现象,论文提出一种基于隧道技术的最佳优先算法。算法引入URL优先队列和多个URL候选队列的概念,通过暂不放弃主题无关URL以发现更多主题相关URL的策略,使得最佳优先算法在某种程度上跨越了网络隧道,初步具备了“全局最优”的特点。

其他文献

基于特征分类能力互补性的特征选择方法

特征选择，是在利用机器学习算法构建模型前，对原始数据的预处理过程，是机器学习领域受到广泛关注的研究问题之一。对于高维数据的分析计算，一方面，很容易陷入“维度灾难”的困境；另

学位

特征选择特征分类机器学习计算方法

基于混合式P2P动态拓扑构造系统的应用研究

无线网络近年来的快速发展,所采用的网络技术日益复杂,网络设备也日趋多样化。随着新技术设备的投入及其应用的增加,维护和管理工作已越来越繁重。再者网络规模相当庞大,设备

学位

拓扑构造AgentMAS混合式P2P

短信通信复杂网络结构特性研究

目前,手机短信息已成为继Internet之后的“第五媒体”,成为人们日常交流的主要方式之一。短信息在给人们带来极大方便的同时,也产生了一定的负面影响。恶意使用者利用短信平

学位

短信通信复杂网络结构特性无标度网络社区发现

基于RFID技术的门禁管理系统设计与实现

物联网时代的到来被称为世界信息产业发展的第三次浪潮。“智慧地球”战略的提出以期通过覆盖海量的智能传感器，在物物相联的概念下一切物体都可以被感知，让整个地球形成可被感

学位

物联网数据过滤RFID技术门禁管理身份识别

数据挖掘工作流建模及调度算法的研究

目前关于数据挖掘的研究很多，主要是对挖掘算法的研究，而对挖掘过程管理的研究则相对较少，而数据挖掘过程又是需要多次反复的多阶段处理过程，为了有效地管理和控制数据挖掘各个阶

学位

数据挖掘工作流建模调度算法数据处理

基于人类视觉系统的图像感知哈希算法研究

伴随着计算机、网络通信等技术的迅猛发展，数字媒体技术也取得了长足进步，同时给人们的生活方式和经济发展模式带来了重大变革。几乎每时每刻都有大量的数字媒体产品通过网络进

学位

人类视觉系统图像感知哈希数字媒体主观识别鲁棒性

三维数字化标准中国手语库的构建方法

手语是一种动作语言,通过一连串手势的运动并附以适当的面部表情或身体躯干姿势来表达语意,是聋哑人的第一自然语言。目前中国标准手语的推广程度不高,内部仍存在着地域差异

学位

手语库虚拟人运动捕捉运动编辑手语合成

海量数据的划分和查询方法的研究

随着网络数据、生产数据等持续增加，形成大量的数据，这些数据给存储和查询带来严峻的挑战。但可凭借数据划分方法将海量数据分块分布存储在多个机器中，这样既能能解决单机器的存

学位

数据划分数据筛选协同查询海量数据

无线网络安全协议的设计、建模以及验证

无线网络能被用于经济、军事、娱乐以及健康相关的许多应用领域，这些应用常常包括敏感信息的监测，例如战场上敌人的移动或者建筑物里人们的位置。因此，在无线网络里，安全是非常重

学位

无线网络安全协议密钥分配机制Petri网

屏幕原笔迹文档格式与交换体系研究

随着移动互联网技术的发展与移动终端的普及，社会生活的信息化日益深入，人们越来越依赖于手机、平板电脑等智能移动设备。笔记类软件是传统纸笔记录行为在科技进步的环境下衍生

学位

文档格式数据交换电子文档原笔迹文档交换体系

基于领域本体的聚焦爬虫技术研究

其他学术论文