基于Storm的微博实时推荐系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:Freyr119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网时代的来临,广大互联网用户获取资讯、体验互联网服务更加的便捷,社交网络服务也得到了井喷式发展,并成为了人们日常生活中的不可或缺的部分。微博是一个基于用户关系的信息分享、传播以及获取的新兴社交网络平台。以新浪微博为例,目前日活跃用户大概有几千万,每天产生几亿条新微博。面对如此海量的信息,如何及时的为微博用户推荐感兴趣的微博和热门关键词,已然成为一个急需解决的问题。本论文研究了基于storm的微博实时推荐系统的设计与实现,主要的工作包括以下三个方面:首先,分析了微博推荐系统的研究进展,以及大数据处理的相关技术,包括Hadoop分布式计算框架,Storm实时分布式计算框架、Kafka分布式发布订阅消息系统、滑动窗口模型等。其次,对微博实时推荐系统的整体架构进行了设计,将系统分为数据采集,数据离线处理,数据实时处理,数据储存以及数据展示五个子系统。其中数据采集子系统包括微博API和爬虫两个模块;数据离线处理子系统主要是基于Hadoop采用空间向量模型,并加入了基于牛顿冷却定律的时间因子,对微博用户的历史数据进行离线的兴趣建模,计算用户的兴趣向量;数据实时处理子系统主要是使用storm对用户在微博展示界面的行为进行实时分析,来更新用户的兴趣模型和实现基于改进的滑动窗口模型的微博热门关键词的计算以及为用户实时推荐兴趣微博;数据储存子系统主要是存储系统的各种数据;数据展示子系统主要是展示用户订阅的微博,为用户推荐的热门关键词以及为用户推荐的微博。基于storm、Hadoop以及Kafka平台,设计并实现了各个子系统。最后,搭建测试平台,对系统进行性能以及功能测试,并对系统主要模块的功能进行了分析和验证,实验结果表明系统达到了设计要求。系统采用分布式的架构设计,具有高可用,高扩展,计算能力强等特性。可以方便的帮助微博用户高效的使用微博,为微博用户提供更好的个性化、差异化的推荐服务。
其他文献
提问是课堂教学最常用的策略之一,听力课堂的几乎各个环节都会频繁地使用提问。问题的分配、对提问过程的控制及对学生回答的反馈等因素都对课堂教学的有效性有着极大的影响
本文通过对人工挖孔抗滑桩的施工技术和质量控制以及安全管理进行了深入的研究,同时将人工挖孔抗滑桩技术在具体的滑坡溃坡治理工程的实例中进行了有效的应用。应用结果表明,
我院于1997-10~2001-10采用维生素K1对36例百日咳痉咳期病人进行镇咳治疗,取得了满意的疗效,现报道如下.
审计独立性是审计的精髓和本质所在,而审计独立性的萌芽、发展以及异化源于人力资本与非人力资本在企业发展中相对地位的变迁.不同的公司治理结构及其不同格局的所有权安排将
<正>一、会计信息化的萌芽阶段——会计电算化的起步、推广和普及应用(1979年~1999年) 1.会计电算化的起步1979年财政部和第一机械工业部拨款500万元,用于长春第一汽车制造厂进
对于农村小学生书写差的问题,教师要找准原因,对症下药,慢慢转变,不可能一蹴而就。把字写好需要学校、教师、家长齐抓共管,要提高小学生书写的兴趣;规范学生写字的坐姿、握笔
<正>目的探讨慢性乙型肝炎(CHB)患者中NKG2A是否参与负调节HBV特异性CD8+αB T细胞抗病毒细胞因子的产生。方法 6例替比夫定治疗104周CHB患者和3例HLA-A2(+)CHB患者的肝穿组
会议
目的:1)观察偏头痛患者的神经耳科学改变,探讨偏头痛与眩晕、耳鸣、听力下降的关系;2)量化了解常见周围性眩晕患者焦虑及抑郁情绪障碍状况;3)探讨盐酸氟桂利嗪在偏头痛性眩晕
<正> 义务教育阶段美术教育的现实教育部2001年6月颁发的《基础教育课程改革纲要(试行)》在基础教育课程改革的具体目标中多处提到了知识和学科的问题,但总体的改革趋势是降
毛泽东在《关于正确处理人民内部矛盾的问题》一文中详细的分析了社会主义社会存在的矛盾,不仅极大的丰富和发展了马克思主义,而且对我国现阶段的社会主义建设事业仍然有很大