【摘 要】
:
随着微博用户的迅猛增长,越来越多的人希望从用户的行为和微博内容中挖掘有趣的模式。针对如何对微博数据进行有效合理的采集,提出了基于微博API的分布式抓取技术,通过模拟微博
【机 构】
:
广东工业大学计算机学院,广州优亿信息科技有限公司
论文部分内容阅读
随着微博用户的迅猛增长,越来越多的人希望从用户的行为和微博内容中挖掘有趣的模式。针对如何对微博数据进行有效合理的采集,提出了基于微博API的分布式抓取技术,通过模拟微博登录自动授权,合理控制API的调用频次.结合任务分配控制器高效地获取微博数据。该分布式抓取技术还结合时间触发和内存数据库技术实现重复控制,避免了数据的重复爬取和重复存储,提高了系统的性能。本分布式抓取技术具有可扩展性高、任务分配明确、效率高、多种爬取策略适应不同的爬取需求等特点。新浪微博数据爬取实例验证了该技术的可行性。
其他文献
<正> 9月的气候特点是天高云淡,温度凉爽宜人,昼夜温差较大,是多肉植物生长的又一个旺季。"夏型种"多肉植物继续生长,春、秋季生长的"中间型"多肉植物则到了生长旺盛期,"冬型
《天真之歌和经验之歌》是布莱克最重要的两个诗作合集,体现了诗人对这个世界和人性的深刻剖析。《羔羊》代表人性之初的纯洁,而《老虎》则代表了经验状态下的世俗生活,这一
<正>目前,我国检察机关内设机构的设置存在不少问题,在推进司法改革的过程中,我们有必要对检察机关的机构设置问题进行重新审视和设计,以适应检察工作发展的需要。
在经济全球化不断推进和国际竞争日益激烈的今天,综合国力的竞争逐步转变成人才战略的竞争,发展和高素质人才成为各国政策中的重要部分,在这样的大背景下,职业教育的建设和发
":为了每一位学生的发展"作为新一轮课改的核心理念,目标是实现全面和谐发展的教育,它提出教学活动须尊重学生已有知识和生活经验;倡导自主、合作、探究的学习方式;教学过程
全民阅读的兴起是当代经济、社会发展的必然趋势。全民阅读活动的推广关乎全民阅读权利、阅读公平,关系着社会主义现代公共文化服务体系的完善和和谐社会的建设,以及中国梦的
<正>在四川大学历史文化学院的图书阅览室里,挂有十位"史坛名宿"的照片,都是一九五○年后在历史系任教的老师。余生也晚,这些老先生中见过面的,只有徐中舒、缪钺(字彦威)、吴
以往的研究认为:正规金融机构对农村金融服务的缺位等外部性约束(external constraints)是农户贷款困境的主因。但是,农户对于贷款的认知偏差(cognitive bias)、在贷款使用过
法律与自由的关系经历了千百年的探索,凝聚了千百年的智慧,那么法律与自由到底是什么关系?马克思以其深邃的理论思维把自由的问题提到规律的高度加以考察和阐发,提出了“法典
本文从什么是迭代开发模式,软件企业为什么选用迭代开发模式的角度出发,阐述了基于迭代开发模式的软件综合实训课程设计思路,重点阐述了基于迭代开发模式的软件综合实训课程