主题搜索引擎网络爬虫搜索策略的研究与实现

来源 :北京化工大学 | 被引量 : 9次 | 上传用户:vvf021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题网络爬虫是主题搜索引擎后端获取数据的自动化代码程序,主题搜索引擎前端查询到的数据事先由主题网络爬虫在互联网上抓取,存储在本地。然后对网页进行数据抽取,建立索引。所以主题爬虫对于一个主题搜索引擎来说,起着支撑的作用。本文提出链接文本相关度算法与主题信息值遗传恢复的算法相结合的主题优先抓取算法来指引爬虫抓取方向,并使用postgresql数据库集群技术存储数据。主题优先抓取算法根据网络页面结构的特点,通过页面之间的主题传递来预测页面主题相关性,解决了主题爬虫通道堵塞,抓取遗漏的问题。首先根据锚文本传递一个相关性信息值,如果锚文本给出的信息是相关,相关阀值就直接传递;如果是不相关,就乘以遗传基因比例之后传递。传递的过程中如果遇到相关的网页就恢复链接的相关性信息值到初始值。相关性信息值将互联网网页以主题的不同分割在不同的通道内,所有与主题相关的网页都在最大通道内,各个通道交错相连,爬虫按通道的大小顺序抓取。爬虫要抓取的网页信息量庞大,单台主机不能满足这些信息的存储。本文在资源库以及链接地址库都采用postgresql数据库集群技术,扩大后台存储容量。并且在各个数据库点中使用pgbouncer连接池技术,减少数据库连接次数,争取时间。在链接地址库中采用缓存技术减少数据库操作次数,减少消耗时间,提高爬虫工作速度。最后通过实验测试,分析数据,验证了基于主题优先抓取技术的有效性及postgresql数据库集群技术的爬虫系统的可行性。
其他文献
奶牛乳房炎不仅引起奶牛乳产量和乳品质降低、治疗费用和奶牛的淘汰等直接经济损失,而且还会使奶牛机体免疫力降低,从而诱发其它疾病产生,如产后炎症、产后情期延长甚或不发
随着社会科技的发展,计算机软件已经从无到有,从少到多,逐渐渗透到人们生活的各个角落。计算机软件是信息时代的重要标志,他提高了我们的工作效率,扩展了我们的娱乐空间,其重
随着电子通信产品集成度的迅速发展,雷击浪涌对电子通信设备及其相关信号电缆造成危害越来越严重和难以控制,特别是通信终端产品的广泛使用,由于其工作环境和条件复杂,人员参
本文试图以马克思主义大众化作为视角,考察中国共产党早期报刊与马克思主义大众化之间的关系,总结其历史作用、特点、历史经验,分析其历史局限,为推动当代中国马克思主义大众
文化是社会人文精神的主要源泉,她包括教育、科学、艺术、文学、生活方式、基本人权、价值体系、传统观念,以及信仰、教育体系和人类精神生活的各个层面。对于当代俄罗斯来说
近十几年来,网络技术获得了突飞猛进的发展,网络的到迅速普及,尤其我国是一个新兴的网络大国,网络在我国的普及速度更是快速。但是随着网络的迅速普及,网络犯罪问题也从无到
目的腹泻范畴包括西医非感染性腹泻病(包括食饵性腹泻、症状性腹泻、过敏性腹泻及其他腹泻)以及除霍乱、痢疾外的大部分感染性腹泻病。腹泻病在中国小儿仅次于呼吸道感染的第
建设创新型国家,需要创新型人才,培养大批高素质的创新人才,是高等教育必须认真关注并主动应对的重大问题。而创新人才培养体系的构建是创新人才培养的关键。本文从建设创新
自从上世纪七十年代之后,特别是近两年石油价格的急剧变化,国际石油市场环境发生了剧烈的变动,原来相对稳定的市场变得越来越动荡不安,身处国际石油市场环境中的跨国石油企业
随着信息化社会的不断发展,版权保护以及身份识别的问题已经是迫切需要解决的问题,而鲁棒的数字音频水印已经成为版权保护领域的一个新技术。以二值图像为水印信息,把音频为