主题爬虫算法的研究与实现

来源 :兰州交通大学 | 被引量 : 12次 | 上传用户:SongSan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,上网人数的不断增长,网络上的信息量也急速增加。所有这些都给搜索引擎提出了挑战,传统的搜索引擎已经不可能提供给用户既全面又具有专业深度的服务了,垂直搜索引擎应运而生。主题网络爬虫作为垂直搜索引擎的抓取模块,负责搜集网上的网页信息。主题爬虫的好坏直接影响着搜索引擎的服务质量,故作为搜索引擎的重要组成部分,尤其值得去研究和改进。近年来,对主题爬虫的研究主要集中于两个方面——主题爬虫搜索策略和主题相关性算法。本文即针对这两方面展开了讨论,所做的主要工作和研究成果包括:(1)文章对主题爬虫相关技术进行了研究。简要描述了互联网上主题页面的分布特征、URL、正则表达式的应用、网页获取、网页内容分析等方面的理论,为建立主题爬虫垫定了基础。(2)研究并改进了主题相关度判定算法。在传统向量空间模型的基础上,根据网页的结构特征,对特征项关键词进行加权。根据主题词的语义多样性,引入语义相似矩阵对网页特征项进行相似性转换。提高了主题爬虫对相关网页的识别度和下载率,避免无关网页的下载。(3)将全局搜索突出的遗传算法和局部搜索效果较好的模拟退火算法引入到主题爬虫的搜索策略中,并结合了改进的VSM相关度算法及URL链接的重要度共同计算待抓取URL的优先级别,从而确定爬虫的抓取方向。(4)实现了一个行业定制的主题爬虫——澳洲建筑商服务系统中的爬虫模块。详细地从技术方面介绍了行业定制爬虫的特点。(5)在通用爬虫框架Heritrix的帮助下,对改进的VSM算法与传统的VSM算法进行了相关性判定的对比;分别用HITS,最佳优先算法与基于模拟退火遗传算法的主题搜索策略进行主题搜索,由实验结果可得基于模拟退火遗传算法的主题搜索策略比基于链接的HITS算法,基于内容的最佳优先算法在某种程度上具有一定的优势。
其他文献
目的:探讨中西医结合健康教育路径对住院糖尿病患者进行干预的效果。方法:将112例糖尿病患者随机分为观察组和对照组各56例,对照组采用传统宣教方法进行健康宣教,观察组采用
乌鲁木齐地处高寒干旱的亚欧大陆腹地,有着较为丰富的干旱区野生植物种质资源。研究其植被类型对了解乌鲁木齐自然植被现状、植物多样性以及荒漠植物对不同环境的抗逆能力有
班丹拉姆是藏密神灵中举足轻重的女性护法神之一,作为历辈达赖喇嘛红黑护法神系统中的黑护法神和藏区的保护神,备受青藏高原各民族的尊崇。她身上所承载的宗教文化、艺术文化
2013年5月26日上午,《西部人居环境学刊》启刊会暨《室内设计》创刊100期纪念会在重庆大学建筑城规学院召开。《室内设计》创办于1986年,是国内最早的建筑学杂志之一。为了适应
在全球化的趋势中,随着中越两国经济的迅猛发展,越来越多的中国公司和使用汉语作为工作语言的公司在越南国投入了资金;随之而来的是,对能说汉语的劳动人员的需求也不断地增加;在越
从界定"意境""园林意境"的概念着手研究"意境营造"这一涉及文学、美学、园林学的园林设计的重要环节;从理论角度分析中国古典园林创作中意境营造的思想和技法,将其归纳为主题
介绍了阀门限位开关在现场使用的作用,分析了阀门限位开关的结构、内置开关的种类及未来阀门限位开关发展的趋势。如何提高阀门限位开关的可靠性,保证阀门限位开关如何在恶劣
数字高程模型(DEM)作为重要的基础地理信息成果,是GIS空间数据库的主要内容之一,高效、准确的评定DEM的数学精度对于保证DEM成果质量尤为必要。研究了利用FME软件简捷、高效
<正>一、1997年《关联方关系及其交易披露》诞生1997年财政部将《关联方关系及其交易披露》作为第一项具体会计准则率先颁布,该准则首先对关联方、关联方交易的内涵与外延进