基于用户影响力的微博数据采集技术

来源 :山东师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户:wwling_girl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博的使用人群数量基数大,状态信息更新频繁并且信息传播迅速,因此对微博平台上信息的挖掘具有重要意义,但是由于微博数据的海量性、突发性以及微博格式的不规则性,加大了采集数据的技术难度。在分析对比了基于Cookie爬虫微博数据采集方法和基于API接口微博数据采集方法的基础上,提出了一种基于用户影响力的微博用户信息采集方案。将每一个API调用封装成一个Task类嵌入到具有模拟登陆功能的爬虫程序中,通过贝叶斯-Pagerank算法量化微博用户之间的关注关系得到用户的影响力值,依据用户影响力值决定爬取顺序,可以在有
其他文献
结合张峰水库移民环境状况,定性分析了移民安置环境容量的宏观条件,运用耕地和粮食双重指标分别计算了农业安置的环境容量,运用P-E-R模型验证了计算结果,得出结论。从移民可
学习力是指支撑学习者持续不断学习的各种力量因素的综合系统,主要包括个体在学习主动和优越方面的个性心理特征。通过实证调查得知:中学生的学习力处于中等水平;学习成绩好
科学技术的飞速发展为我们的教育理念带来了新的变革,特别是现代信息技术在教育教学领域的成功引入更成为了学科教学方法高速发展的倍增器。计算机辅助数学体验教学就是在此
爱伦·坡是美国19世纪最优秀的小说家之一,在美国文学的发展中占有重要的地位。他的短篇小说得到相当广泛的认可,为美国文学的繁荣和发展做出了巨大贡献。论文从作家本人、家