垂直搜索引擎中智能爬虫系统的研究与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:woshi8848
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,搜索引擎已经成为了互联网的入口。垂直搜索引擎在垂直领域深度采集数据并加工处理,提供精准和专业搜索服务,具有广泛的关注度和市场需求。智能爬虫是垂直搜索引擎的重要组成部分,完成数据采集的工作。由于其专业背景强,覆盖范围窄,不同的智能爬虫在架构和策略上差异性很大,同时也面临主题相关性的精确度、小范围的大量采集困难等问题。本文针对垂直搜索引擎中的智能爬虫的技术难点,研究相关技术,提出了解决方案,在插件化和分布式的设计原则下,设计和实现了一套完整的智能爬虫系统,同时对系统的功能和性能进行了测试。本文的主要工作包括:(1)设计了一个基于LDA的文本特征提取方法,用机器学习算法决策主题相关性,并建立了以锚文字特征和页面主题相关度为基础的链接预测模型。(2)设计了多策略的应对反爬虫方案和代理服务器筛选流程。(3)提出了基于Bloomfilter的两层三实例的高可用,持久化URL去重方案,解决了海量URL的快速精准去重。(4)完成智能爬虫其它功能的设计,编码实现了完整的系统。通过搭建实验拓扑环境并部署爬虫系统,验证和测试了智能爬虫系统的功能和性能。试验结果表明,本文的设计和实现达到预期目标,提升了爬虫的智能性和效率。
其他文献
城市轨交关键设施设备的可靠和稳定,是轨交安全、有序运营的重要保障。针对现阶段上海轨交维护保障业务存在的问题,提出了建立信息化系统的解决方案,详细介绍和分析了上海轨
以PC机和数据采集卡为主要硬件,采用LabVIEW为软件开发平台,构建了虚拟数字示渡器,该仪器能够实现时域分析和频域分析。该测量系统在三相交流电动机的电流测量的试验中,得到了很
目的对消化道出血患者的临床特点观察并采取对应护理措施的应用价值。方法取本院老年消化内科患者260例为本文分析对象,随机分为两组,每组各有患者130例。常规组患者接受常规
分析不同浓度的6-BA+K2SO4处理对成熟期苹果果实内总糖、还原糖、可溶性糖、矿质元素和果实单果重的影响;研究材料:6年生"长富2号"苹果叶片及果实;研究结果:(1)各处理明显提
目的 探讨Fr¨ankelⅡ型功能矫治器对儿童上气道变化的影响。方法 随机抽取经Fr¨ankelⅡ型矫治器治疗的安氏Ⅱ类 1分类错患儿 2 0例 ,其中男、女各 10例 ,年龄 9~ 10岁 ,