应用于大规模互联网数据抓取的计算机集群设计

来源 :2014年科技强检电子信息系统研发与示范项目成果研讨会 | 被引量 : 0次 | 上传用户:ttcj_008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文阐述了大规模互联网数据抓取的计算机集群设计的研究背景和目前业界主流厂商的发展状况,然后详细介绍了正义网在研究该课题的一些实践经验,先阐述整个爬虫集群的框架设计思路,进而从智能爬虫设计时需要考虑的多线程及其算法问题、动态负载调节问题、高可靠性设计问题和页面元数据抽取等方面的问题进行阐述,另外还介绍了整个系统架构中采用的一些开源组件,例如ActiveMQ、BerkeleyDB、MongoDB等,阐述了这些组件在系统集成实践中的应用体会,最后描述了系统横向扩展性的设计思想。
其他文献
吴长江一九五四年生于天津汉沽。一九八二年毕业于中央美术学院板画系。一九八二年至今任教于中央美术学院版画系,现为中央美术学院教授、中国美术家协会常务副主席。 Wu Ch
  权限管理是信息管理系统的基础功能,关系到系统的运行效率、用户体验和管理员日常工作的复杂度。统一业务应用系统服务于全国检察机关,有四级检察院、20多个业务部门和10个
  检察工作面对的案件办理压力,迫切需要通过信息化手段提高工作效率和质量。刑事检察业务工作平台(PWP)借助电子卷宗的使用,围绕案件办理的阅卷、文书制作、讨论案件等环节,
会议
近年来,随着我国水电事业的蓬勃发展,特别是西部大开发战略的实施,部分在建和拟建工程坝址处存在深厚覆盖层现象。由于河床的深厚覆盖层情况复杂,且覆盖层不能全部挖除,所以在深厚
在许多行业的流体动力系统中,瞬变现象时有发生,全面探索整个系统的瞬变特性,找出其发生强瞬变的内在原因,提出防止和控制手段,是当前面临的重要课题。据此,本文在动力系统综合实验
  目前,已出现更加智能和新型的网络检索方式,将逐渐淘汰以往的传统搜索引擎和门户网站。这种新型的自动获取信息的系统模式,成就了信息主动通达到人的便捷。本文首先从中文切
混凝土坝坝踵应力和裂缝扩展是工程设计的控制条件之一,尽管坝基面上的应力分布随地基弹模、坝体结构等因素影响,但总的规律是上游坝踵附近可能先出现拉应力并形成交界面裂缝。
  检察机关统一业务应用系统由高检院组织研发,涵盖各项检察业务,是检察机关的核心业务应用系统,在全国各级检察院统一推广应用。为实现"业务不停、网络不断、系统不瘫、数据
生态脆弱、春旱缺水、电力缺乏、夏洪的危害已经成为制约叶尔羌河流域可持续发展的瓶颈,新修控制性水利工程,进行流域水资源统一规划与调度,实现水资源合理配置是解决问题的根本
  随着科技的进步,整个社会信息化程度的不断提高,应用软件中对各种信息数据处理能力的要求也在不断的扩展,尤其是信息数据在不同载体间相互共享的需求越来越迫切。这里所说的
会议