一种面向主题的分布式爬虫系统的研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:tinavalwell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet技术的发展使网络中蕴含的信息资源和网络用户迅速激增,庞大的用户群催生了互联网的各种搜索应用。快速、高效、准确地检索信息,只靠单台计算机,无论是处理能力还是存储容量都无法胜任。若采用大型机,则效费比相对变低。因此,研究和开发廉价的搜索技术的需求越来越大,而近几年新兴的云计算技术无疑提供了一种契机。鉴于云计算的重要性,学术界和企业界均在开展相关技术的研究和应用,基于云计算的搜索引擎是其中重要的应用之一。基于此,本文在云计算开放平台hadoop的基础上开展了面向主题的分布式爬虫技术的研究,利用服务器搭建起hadoop应用环境,并在其上成功地实现了面向主题的爬虫系统。本文首先从云计算技术架构出发,探讨了云计算领域里最为著名的两个分布式文件系统;第二,对云计算领域常用的key/value数据库之一的Berkeley DB做了深入的研究;第三,对网络爬虫Heritrix做了详细的源代码分析,为以后改造Heritrix从而生成本系统的主题爬虫做好准备。在上述工作的基础上,本文提出了基于字典、文本分析和网页结构三个主题模型,基于这些主题模型,提出了面向主题的分布式爬虫系统的整体架构,确定了分布式爬虫系统的主控节点和爬虫子节点的内部架构,深入研究并应用了其中的关键技术,最终实现了该爬虫系统。在实验室提供的环境下,对整个系统所做的大量测试表明,该系统达到了设计目标,具有良好的可用性和可扩展性。
其他文献
随着3G(3rd-generation)及后3G无线通信技术的成熟和发展,使得视频通信业务成为可能,人们也越来越期待能在手机智能终端上享受更多丰富多彩的业务,比如互联网业务。随着呼叫
雷达辐射源信号识别是电子情报侦察(ELINT).电子支援侦察(ESM)和雷达威胁告警(RWR)系统中的关键处理过程,也是电子干扰的前提和基础,其识别水平是衡量雷达对抗设备技术先进程
无线传感器网络(wireless sensor network, WSN)由部署在监测区域内大量的、微型的传感器节点组成,其目的是协作地感知、采集和处理监测区域内感知对象的信息,并发送给观察者
视频文本能够提供重要的视频语义信息以供视频检索和视频摘要,因此获取视频文本对于视频语义分析具有重要作用。有效地检测出视频中的文本无疑是其中一项关键的技术。文本检
业务流程执行语言(Business Process Execution Language, BPEL)是一种Web服务(Web Service, WS)组合语言。随着BPEL流程变得越来越复杂,通过测试来保证流程的可服务性和可靠