应用于大规模互联网数据抓取的计算机集群设计

来源 :2014年科技强检电子信息系统研发与示范项目成果研讨会 | 被引量 : 0次 | 上传用户：ttcj_008

【摘要】

：

　　本文阐述了大规模互联网数据抓取的计算机集群设计的研究背景和目前业界主流厂商的发展状况，然后详细介绍了正义网在研究该课题的一些实践经验，先阐述整个爬虫集群的框架设

【作者】

：

张克猛赵明单鹏飞

【出处】

：

2014年科技强检电子信息系统研发与示范项目成果研讨会

【发表日期】

：

2014年期

【关键词】

：

互联网数据抓取计算机算法问题系统架构元数据抽取可靠性设计开源组件

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　本文阐述了大规模互联网数据抓取的计算机集群设计的研究背景和目前业界主流厂商的发展状况，然后详细介绍了正义网在研究该课题的一些实践经验，先阐述整个爬虫集群的框架设计思路，进而从智能爬虫设计时需要考虑的多线程及其算法问题、动态负载调节问题、高可靠性设计问题和页面元数据抽取等方面的问题进行阐述，另外还介绍了整个系统架构中采用的一些开源组件，例如ActiveMQ、BerkeleyDB、MongoDB等，阐述了这些组件在系统集成实践中的应用体会，最后描述了系统横向扩展性的设计思想。

其他文献

雅风堂常年代理画家

吴长江一九五四年生于天津汉沽。一九八二年毕业于中央美术学院板画系。一九八二年至今任教于中央美术学院版画系,现为中央美术学院教授、中国美术家协会常务副主席。 Wu Ch

期刊

中央美术学院分党组书记美术学院教授吴长江中国美术家协会汉沽版画系协会常务理事田黎明西藏文化

检察业务统一应用系统权限管理设计

　　权限管理是信息管理系统的基础功能，关系到系统的运行效率、用户体验和管理员日常工作的复杂度。统一业务应用系统服务于全国检察机关，有四级检察院、20多个业务部门和10个

会议

检察业务统一业务系统权限信息管理系统最终形成运行效率用户体验业务部门

基于Java EE的刑事检察业务工作平台设计与实现

　　检察工作面对的案件办理压力，迫切需要通过信息化手段提高工作效率和质量。刑事检察业务工作平台(PWP)借助电子卷宗的使用，围绕案件办理的阅卷、文书制作、讨论案件等环节，

会议

基于区间分析的土石围堰安全性研究

近年来，随着我国水电事业的蓬勃发展，特别是西部大开发战略的实施，部分在建和拟建工程坝址处存在深厚覆盖层现象。由于河床的深厚覆盖层情况复杂，且覆盖层不能全部挖除，所以在深厚

学位

深厚覆盖层区间分析参数敏感性分析边坡稳定性分析土石围堰安全性

管道动力系统即时瞬变与延时瞬变特性研究

在许多行业的流体动力系统中，瞬变现象时有发生，全面探索整个系统的瞬变特性，找出其发生强瞬变的内在原因，提出防止和控制手段，是当前面临的重要课题。据此，本文在动力系统综合实验

学位

动力系统容惯因子比瞬变强度瞬变强度系数预防和控制

中文切词技术的全文检索和推荐系统的设计

　　目前，已出现更加智能和新型的网络检索方式，将逐渐淘汰以往的传统搜索引擎和门户网站。这种新型的自动获取信息的系统模式，成就了信息主动通达到人的便捷。本文首先从中文切

会议

中文切词技术全文检索信息推荐系统获取信息全文信息检索系统模式推荐方法

混凝土重力坝自适应有限元应力分析及改善坝踵应力分布状态方法探讨

混凝土坝坝踵应力和裂缝扩展是工程设计的控制条件之一，尽管坝基面上的应力分布随地基弹模、坝体结构等因素影响，但总的规律是上游坝踵附近可能先出现拉应力并形成交界面裂缝。

学位

自适应有限元h型自适应坝踵应力重力坝人工预留缝

基于ITIL的检察机关统一业务应用系统运维体系构建

　　检察机关统一业务应用系统由高检院组织研发，涵盖各项检察业务，是检察机关的核心业务应用系统，在全国各级检察院统一推广应用。为实现"业务不停、网络不断、系统不瘫、数据

会议

ITIL检察机关统一业务系统运维业务应用系统运维体系支撑工具应用价值

叶尔羌河流域水库群联合调度研究

生态脆弱、春旱缺水、电力缺乏、夏洪的危害已经成为制约叶尔羌河流域可持续发展的瓶颈，新修控制性水利工程，进行流域水资源统一规划与调度，实现水资源合理配置是解决问题的根本

学位

叶尔羌河流域水库群模拟优化调度人机对话算法时间序列分析模糊灰色关联分析调度函数BP神经网络

Word、WPS文书自动生成系统的设计与实现

　　随着科技的进步，整个社会信息化程度的不断提高，应用软件中对各种信息数据处理能力的要求也在不断的扩展，尤其是信息数据在不同载体间相互共享的需求越来越迫切。这里所说的

会议

应用于大规模互联网数据抓取的计算机集群设计

与本文相关的学术论文