论文部分内容阅读
本文阐述了大规模互联网数据抓取的计算机集群设计的研究背景和目前业界主流厂商的发展状况,然后详细介绍了正义网在研究该课题的一些实践经验,先阐述整个爬虫集群的框架设计思路,进而从智能爬虫设计时需要考虑的多线程及其算法问题、动态负载调节问题、高可靠性设计问题和页面元数据抽取等方面的问题进行阐述,另外还介绍了整个系统架构中采用的一些开源组件,例如ActiveMQ、BerkeleyDB、MongoDB等,阐述了这些组件在系统集成实践中的应用体会,最后描述了系统横向扩展性的设计思想。