基于Spark框架的新闻推荐系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:ares_sh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能手机和平板电脑的普及率在上升,每一个人都会亲身接触到一些互联网产品,在日常使用的过程中会直接产生大量的行为日志,互联网从业者和技术人员通过对这些行为日志信息分析可以得出一些用户的兴趣和偏好,从而大大提升了日志推荐效果,但是用户在互联网系统上的每一次操作中都会直接产生一行行为日志,导致行为日志在数据规模上增长太快,数据不能及时收集和处理,在早期的一种个性化推荐系统中,首先要通过离线方式收集到每一位用户的历史行为信息,再对数据定期进行处理和分析,根据清洗后的数据选择模型进行预测或者更新模型。这种方式的推荐具有延时性,从而无法及时跟踪用户的兴趣,导致用户在产品的留存率降低,甚至弃用该产品。本文经过分析对比各大数据处理框架优缺点,结合使用场景,最终选用Spark框架作为基础,设计并实现了一个实时推荐系统,本系统对用户产生的日志数据进行实时采集和分析,再结合离线部分训练出的结果,从而实时的进行推荐反馈。本推荐系统对新闻资讯中的文本进行推荐,针对所有推荐的物品特征,本文设计了一种将离线计算与实时数据计算相互巧妙地结合在一起的系统架构,离线计算部分主要是采用Spark框架的原生支持ALS算法和基于内容的推荐算法进行结合,同时对ALS算法在Spark框架上进行了改进,优化了 ALS算法梯度下降部分。实时计算部分使用Spark平台上的Spark Streaming流处理技术,处理日志收集框架Flume收集的日志信息,增量更新用户画像和热门内容。除推荐部分外,还实现了系统的常规功能需求,进行了界面设计,普通用户可以浏览新闻内容,对基础信息进行更改,添加了系统管理员角色,对用户和内容进行人工管理,使系统的体验更为良好。
其他文献
皮尤研究中心涉华民调报告(2015—2020)对"中国"的再现是一种基于议程设置、框架运用和话语策略而进行的双面建构过程:一方面,通过"中国崛起"与"中美竞争"的议程,肯定了中国在经济和国际影响力方面取得的成绩;另一方面,通过设置"他国疑虑"与"全球威胁"的议程和问题框架,淡化了中国发展的积极意义,凸显了部分国家在面对中国国力增长和经济影响力上升时的局部不安情绪.在对民调数据进行话语解读的过程中,相关文本亦通过"意识形态图式"的话语元策略和相关子策略的运用,对作为意识形态群体关系中"他者"的中国进行了一定
Twitter平台已成为国家战略议题对外传播的重要渠道.主体层面,包括留学生、海外华人等在内的普通网民声量不断提升,但专业性媒体依然是话题引导主力军;内容层面,事实类和观点类信息声量最高,而情绪类信息最易激发转发,感官类信息最易刺激点赞;受众层面,美国用户在中国战略议题上的敌意声量最高,包括巴基斯坦、印度、南非等在内的"一带一路"沿线国家对相关议题关注度较高;效果层面,"一带一路"传播热度最高,"人类命运共同体"正面情感和认知引导最强,相较而言"中国梦"认知偏差最大.综合而言,基于主体—内容—受众—效果联
随着物联网技术的发展和广泛的应用,在各种应用场景中产生了大量的时间序列数据。时间序列预测是依据历史数据挖掘并预测下一时刻状态的技术,挖掘这些数据中蕴含的信息,对众多领域都有着至关重要的指导作用。然而由于物联网时间序列的非平稳性、非线性等特点,现有的解决方案无法满足具有多样性和差异性的物联网时间序列预测的需求。当前计算机性能的提升促进了深度学习的发展,在自然语言处理等领域取得的巨大成果,为物联网时间
新冠肺炎病毒以其极强的传染力和杀伤性给世界各国带来了灾难.面对共同的威胁,世界各国理应团结合作、共同抗疫,但西方一些国家却对中国人民和社会发动了猛烈的舆论攻击,试图对中国进行污名化.无论从国家组织还是个体层面,污名化对被污名者构成了极大的威胁,会导致其生存与发展受到阻碍.因此,了解污名化过程并寻找有效去污名化策略具有重要现实意义和研究价值.聚焦于污名过程以及中国政府对应的话语分析视角可以发现中国政府应对污名化所采取的外交行动步骤和话语策略,从而揭示去污名化和维护管理组织合法性的过程特点与行动模型.污名情景
电影被视作国家文化对外传播的媒介载体,是文化软实力的重要组成要素."一带一路"电影的传播,不同于单纯的文化"走出去",在区域性的共同目标指导之下凸显出自身的"建构性"特点.建构性意味着主体性,"一带一路"国家主体的多元性形成了电影生产传播主体的多元性.通过经济的区域性建构文化的共性,从而形成"一带一路"电影的共性,有意识地营造"一带一路"国家的区域归属感,兼顾文化差异与包容;同时还体现出多向互动性,通过电影对话机制,建构属于"一带一路"文化的交流互鉴,赋予更高层面的人类命运共同体的电影形态与文化价值观,从
跨媒体叙事从来都不只是叙事领域自觉的创新实践,而是一开始就依靠着深刻的文化工业背景.究其实质,跨媒体叙事是资本用以刺激需求,抵挡文化领域的"产能过剩",进而维持文化产品"再生产"的优化策略.为此,来自资本和权力的双重主体发挥出了作用:资本主体发现了"通俗小说"的批量生产和分销模式所释放出的商业潜力,并将其成功挪用到了跨媒体平台上.随后,跨媒体叙事愈发膨胀的影响力又使其引起了政治权力的重视,成为战争期间执政者推进意识形态的工具,而这又反过来进一步加速了跨媒体叙事的推广.然而这种用以自我拯救的方式在暂缓产能危
彼得·海斯勒"中国三部曲"在中外皆获得良好的传播效果,其获得广泛认同的深层机制值得探析.从读者评论出发,究其深层原因可知,其故事文本中有很多引发认同的机制设置:首先,作为外国人,其题材选取和视角呈现上的组合,恰好对国内外不同的读者构成了一种认知差,使得讲述的共通话题"既熟悉又陌生";其次,叙述方式上采取的"第一人称叙述"普通人生活所带来的浸入式体验,能够更加贴近中国日常生活;最后,作者对讲述事件探究式的评价建立在同理心的基础之上,由此故事得以冲破文化的藩篱最终获得较为普遍的认同.这些为讲好中国故事、传播良
学位
智能媒体具有智能化、强连通性和强交互性等特征.其是以人类真实需求为导向,依托于人工智能、大数据、云计算、物联网以及区块链等多种智能技术而不断发展的新型媒体系统.机器智能与人类智慧是智能媒体的核心.随着5G技术与上述智能技术的深度融合,未来智能媒体将呈现融合化的发展态势,其主要表现为技术融合、跨场景数据贯通、需求—服务连通、机器与智能的协同以及机器智能与人类智慧的深度融合,人媒合一将成为未来智能媒体的新形态.
新中国群众文艺是我国人民群众文化艺术活动中常见的文艺形式,在新民主主义革命实践中孕育而成,在社会主义革命、建设初期探索成长,在社会主义改革大潮中快速进步,在新时代中国特色社会主义建设时期全面发展,是我国社会主义文艺大家庭中的重要组成部分,鲜明体现了伟大的建党精神,充分彰显了中国共产党的文艺政策和价值导向.然而,理论界对其研究并未有持续跟进,研究的高度、深度和广度也有待提高,其中很突出的问题是忽略了其发展源头和脉络,亟待在中国共产党成立100周年的重大历史背景下,梳理新中国群众文艺从何而来、如何演进以及在每