基于领域本体的聚焦爬虫技术研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:zlongtime
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息量的急剧猛增以及广大互联网搜索用户信息检索需求的不断提升,使得搜索引擎技术由原来的面向全体互联网用户,提供公用信息服务的通用搜索引擎发展到面向特定领域,为用户提供专业信息服务的垂直搜索引擎。相应地,在通用爬虫技术研究的基础上,也需要进一步对聚焦爬虫技术进行研究。论文首先对搜索引擎和垂直搜索引擎、通用爬虫和聚焦爬虫的相关概念、体系结构及工作原理做出了介绍和讨论。然后,从抓取目标的描述、网页分析算法和网页搜索算法三个角度对传统的聚焦爬虫关键技术进行了分析,为进一步的研究打下了铺垫。论文重点对基于领域本体的聚焦爬虫技术进行了深入研究。主要的工作与论点如下:(1)论文讨论了被用作聚焦爬虫主题模型的领域本体的设计、构建和更新方法。从路径距离、语义重合度、语义深度、语义密度和概念属性几个角度,研究并改进了领域本体概念语义相似度的计算方法。(2)论文提出一种基于领域本体概念语义相似性的主题相关度计算方法,通过对向量空间模型中的网页文档向量进行语义扩展,使聚焦爬虫对网页的分析具备了一定程度的概念语义特性,提高了聚焦爬虫的查全率和查准率。(3)论文提出一种面向主题的改进的Hits算法,它从URL字符串、锚文本、扩展锚文本及父页面主题相关度几个方面来分析链接基于内容的主题相关性。然后,将基于内容的分析加入到传统的基于网络链接结构的Hits算法中,使其在综合考虑网页内容和网络链接结构的前提下得到了很大程度的优化,削弱了主题漂移现象。(4)针对Web Community和隧道现象所造成的最佳优先算法只能做到“局部最优”的现象,论文提出一种基于隧道技术的最佳优先算法。算法引入URL优先队列和多个URL候选队列的概念,通过暂不放弃主题无关URL以发现更多主题相关URL的策略,使得最佳优先算法在某种程度上跨越了网络隧道,初步具备了“全局最优”的特点。
其他文献
特征选择,是在利用机器学习算法构建模型前,对原始数据的预处理过程,是机器学习领域受到广泛关注的研究问题之一。对于高维数据的分析计算,一方面,很容易陷入“维度灾难”的困境;另
无线网络近年来的快速发展,所采用的网络技术日益复杂,网络设备也日趋多样化。随着新技术设备的投入及其应用的增加,维护和管理工作已越来越繁重。再者网络规模相当庞大,设备
目前,手机短信息已成为继Internet之后的“第五媒体”,成为人们日常交流的主要方式之一。短信息在给人们带来极大方便的同时,也产生了一定的负面影响。恶意使用者利用短信平
物联网时代的到来被称为世界信息产业发展的第三次浪潮。“智慧地球”战略的提出以期通过覆盖海量的智能传感器,在物物相联的概念下一切物体都可以被感知,让整个地球形成可被感
目前关于数据挖掘的研究很多,主要是对挖掘算法的研究,而对挖掘过程管理的研究则相对较少,而数据挖掘过程又是需要多次反复的多阶段处理过程,为了有效地管理和控制数据挖掘各个阶
伴随着计算机、网络通信等技术的迅猛发展,数字媒体技术也取得了长足进步,同时给人们的生活方式和经济发展模式带来了重大变革。几乎每时每刻都有大量的数字媒体产品通过网络进
手语是一种动作语言,通过一连串手势的运动并附以适当的面部表情或身体躯干姿势来表达语意,是聋哑人的第一自然语言。目前中国标准手语的推广程度不高,内部仍存在着地域差异
随着网络数据、生产数据等持续增加,形成大量的数据,这些数据给存储和查询带来严峻的挑战。但可凭借数据划分方法将海量数据分块分布存储在多个机器中,这样既能能解决单机器的存
无线网络能被用于经济、军事、娱乐以及健康相关的许多应用领域,这些应用常常包括敏感信息的监测,例如战场上敌人的移动或者建筑物里人们的位置。因此,在无线网络里,安全是非常重
随着移动互联网技术的发展与移动终端的普及,社会生活的信息化日益深入,人们越来越依赖于手机、平板电脑等智能移动设备。笔记类软件是传统纸笔记录行为在科技进步的环境下衍生