论文部分内容阅读
社交网络的出现,极大的改变了人们的日常生活。它加强了朋友之间的联络,减少了维系友谊的开销,增加了人际关系的广度。在社交网络中,每天都有数以亿计的信息被发布和传播,这大量信息背后,隐藏的是巨大的价值和很多有决策意义的信息,那么如何采集到这些信息,就是人们亟待解决的问题。新浪微博目前是国内最大的社交网站,是社交网络中最好的研究对象。本文以新浪微博作为社交网络的代表,使用Selenium技术,设计并实现了一个面向社交网络的数据采集系统。本文介绍了传统的网络爬虫技术及其实现原理,并对网络爬虫相关的技术进行了研究,重点分析了反爬虫技术的策略。然后研究了通过新浪微博开放平台来获取数据的方法,经过实验和分析结果表明,仅通过开放平台的方式获取数据是不能满足系统需求的。因此针对新浪微博社交平台的特点,本文采用Python+Selenium技术实现了一个面向社交网络的数据采集系统,该系统具有自动登录微博账号、自动采集微博热点话题、微博内容、评论及转发信息的功能。为了保证系统的稳定性,还针对新浪微博的反爬虫策略对系统进行了优化,包括伪装User-Agent属性、控制采集速率、使用代理IP、自动检测切换微博账号等。最后对本系统进行了功能和性能测试,验证了系统的正确性和稳定性。