面向垂直搜索的聚焦爬虫研究及应用

被引量 : 0次 | 上传用户:fuqinfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着搜索引擎技术的发展,服务于特定领域的垂直搜索应用开始兴起。作为注重专业化与结构分析的垂直搜索技术,其前提是建立在与主题相关的结构化的元数据信息之上。因此,如何准确、及时地获取结构化数据信息成为了当前垂直搜索领域研究的一大课题。网络爬虫作为搜索引擎信息源的提供者,能够自动提取网页超链接,并负责下载相应的Web信息。但它在结构化数据信息的获取方面,还不能满足垂直搜索引擎的需要。为此,本文提出用面向垂直搜索的聚焦爬虫技术来解决上述问题。在简单介绍垂直搜索与网络爬虫的技术背景之后,围绕面向垂直搜索的聚焦爬虫这一中心,本文完成了下列主要研究及应用工作:1)系统地描述了面向垂直搜索的聚焦爬虫的概念、主要工作原理及流程、关键技术分析,还探讨了其发展趋势。2)针对聚焦爬虫最核心基础的两大工作环节:网页抓取和信息提取,提倡借鉴国外先进的开源项目技术:网络爬虫Heritrix和解析工具Web-Harvest。同时也为后续的应用作了技术铺垫。3)在现有的研究基础上,引入一个实际的职位招聘垂直搜索引擎项目,并结合其中一个具体的案例站点(即“智联招聘”网站)的应用需求,规范化设计并实现一套用来解决其结构化数据信息获取的聚焦爬虫系统。该系统具备良好的可扩展性和可修改性,有较好的实际应用价值。本文的创新点主要在于合理地整合运用了一些开源项目,发挥它们各自所长,给出了一个实用的面向垂直搜索的聚焦爬虫解决方案。
其他文献
<正>英国著名作家莎士比亚曾说过:学问必须合乎自己的兴趣,方才可以得益。诚然,一个孩子若拥有良好的兴趣爱好,对孩子一生的发展都有着重要而深远的影响。良好的兴趣爱好既能
中国的饮食文化源远流长,博大精深。随着中外交流的日益增多,越来越多的外国人开始对中国饮食感兴趣。这样,有关饮食文化的翻译肩负重责,无疑会在饮食文化交流中扮演重要的角
中小企业信用担保公司是专门为中小企业提供信用担保服务的中间机构,担保行业的兴衰,对整个中小企业的发展,具有很大的影响。因为中小企业信用担保的“高风险/低收益”的固有
随着科学技术的发展,人们在可视信息的采集、显示、存储、传输等方面取得了显著的进步,开发出了更多的数字图像和视频系统。衡量这些系统中图像质量的优劣成为评价这些系统在
目的探讨计算机辅助导航系统(computer assisted navigation system,CANS)在下颌骨缺损修复重建中的效果。方法 2012年4月-2014年9月,收治8例下颌骨良性病变切除后一期行修复
薪酬管理是人力资源管理乃至整个企业管理的核心内容之一,不仅涉及企业的经济核算与效益,而且与员工的切身利益息息相关。它在决定工作满意感、激发员工工作动机、增强企业凝
随着信息社会的发展,网络系统的规模越来越大。Web(World Wide Web)具有传播信息容量极大、形态多样、迅速方便、全球覆盖、自由和交互的特点,已经发展成为新的传播媒体。随
《双城记》以对比写作的手法为主线,通过伦敦及巴黎两个城市,人物形象以及仁爱与仇恨的对比,以其人道主义的深刻内涵给予英国社会高度的警醒。
随着知识经济的发展,世界各国纷纷以高技术为杠杆谋求经济发展和综合国力增强,先后制定了一系列扶持高新技术产业发展的政策。我国也制订了一系列加速发展高新技术产业的战略
<正> 对于面馆来说,生意最兴隆的日子,就是大年除夕了。北海道每逢这一天,总是从一大早就忙得不可开交。不过,平时到夜里12点还熙攘热闹的大街,临到除夕,人们也都匆匆赶紧回