基于Spark的电影推荐系统设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:lsxfa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电影作为娱乐的重要组成元素,满足着人们的生活需求。但随时间的推移,电影资源逐渐扩大,使得人们难以从中找出自己感兴趣的影片。对于这种信息超载的问题,推荐系统就是一种不错的解决方案。推荐系统通过分析用户、物品和上下文等信息,挖掘用户的偏好,将满足用户偏好的物品主动推荐给用户。目前推荐系统的理论比较成熟,应用也十分广泛,但不同的推荐算法会存在各自的缺陷。为了应对单个算法的不足,以组合策略将多个不同算法进行融合,可以显著提高推荐的准确性。本文首先对电影推荐系统的功能和非功能需求进行分析。功能性需求方面,系统需具备用户基本行为功能和电影推荐功能。非功能性需求方面,系统需满足实时性和准确性等性能指标。接着,根据系统的开发软件框架及业务内容对软件架构体系进行设计,将其划分为视图层、业务层、推荐引擎层和数据存储层。推荐引擎层为核心层,包含基于GBDT与LR融合模型的离线推荐模块、基于Spark Streaming的实时推荐模块、基于Spark SQL的热门推荐模块和基于ALS的详情页推荐模块四种推荐场景。其中,离线推荐模块使用词向量嵌入的方式为推荐模型扩充特征,使模型的准确性提升。实时推荐模块使用Spark Streaming流处理的方式,保证电影推荐的实时性。又围绕推荐引擎做了详细设计,用数据预处理模块加速推荐计算,用日志模块更新推荐模型与推荐结果,用电影向量化模块扩充模型特征。然后,对电影推荐系统进行实现,主要对数据预处理模块、日志模块、电影向量化模块和四个推荐模块的实现进行了阐述。在实现过程中通过设计不同的类和方法,实现对数据的抽取与各种转化。最后,对实验数据集进行说明,部署系统测试环境,针对电影推荐系统的各功能进行测试,并进行了性能测试。对于功能测试,各功能测试结果均满足预期。对于性能测试,融入电影词向量特征的离线推荐模型准确性有明显提升,实时推荐模块也能达到秒级响应。
其他文献
针对统计学方法在低勘探程度区油气资源评价中误差大的问题,从方法解析入手,通过对参数取值和评价过程反复优化,应用油藏规模序列法提高低勘探程度区的资源评价质量.研究结果表明:油藏规模序列法预测过程中涉及多个参数,其预测结果受序列中油气藏规模的变化率k序列、可能的最大油气藏规模Qmax截断和可能的最小油气藏规模Qmin截断影响,具有多解性;该方法简便易行,采用合理的评价思路和取值就能有效提高资源评价结果的可信度.该研究为类似实践积累了经验,也为研究区今后勘探部署及规划制订提供了依据.
针对现有域间路由不稳定溯源检测方法中检测时间受限于路由更新时延、溯源信息可能被篡改的问题,提出一种基于路由状态因果链的域间路由不稳定溯源检测方法.通过分析路由状态间存在的因果关系,定义能够刻画路由状态及其转移过程的路由状态变更标识,将其随路由更新传播发布并存储于区块链,从而构建去中心化、防篡改的路由状态因果链;通过分析本地路由状态因果链判断路由不稳定类型,追溯失效链路或策略冲突自治域序列,完成路由不稳定的溯源检测.理论证明了所提方法能够追溯导致收敛时延的失效链路和导致路由振荡的策略冲突自治域序列,并基于软
针对稠油油藏水平井蒸汽吞吐吸汽不均导致热效率低的问题,采用数值模拟方法,对非均质储层水平井段吸汽规律进行研究,分析了注汽筛管位置对水平井段吸汽规律的影响,引入温度变异系数对比多个周期水平段吸汽不均的程度,并提出了注汽筛管位置调整时机优化方法,根据温度变异系数先降后升的“V”字形变化规律,对比不同阶段调整注汽筛管位置对蒸汽吞吐采油的影响.结果 表明:蒸汽吞吐初期温度变异系数不断下降,依据热力学加和性原理,该阶段吸汽较好的储层比热容升高,证明含水量不断增大,剩余油被大量采出,此时调整筛管位置无法充分动用高渗储
互联网技术在时代发展的大浪潮下日新月异,在线教育教学的发展也在疫情的背景下与互联网的发展相结合,与时俱进的开展了线上阅读学习和教学,特别是在疫情期间中学生对在线阅读需求普遍提高。在线教育平台不但有教师对学生课程、任务、学习目标的管理还有对阅读技能的测试,而且平台还可以根据学生对自己阅读水平的技能测试以及浏览记录,对学生进行智能化的个性推荐课程和图书。基于这些要求设计一个能够让学生测评了解自己学习成
为解决火驱数值模拟组分间转换关系复杂、收敛性差、结果精度低等问题,从火驱燃料沉积角度出发,将反应方程改进为稠油裂解和焦炭燃烧反应方程,并建立具有重复性和准确性的燃料沉积量室内实验方法,求取稠油裂解沉积量,拟合得到改进的模拟方程.结果 表明:改进模型更加合理,其粗化后与室内实验结果、加密后的经典方程模型温度场、燃烧前缘分布等模拟结果基本一致,可以真实地描述高温氧化过程,且运算时间大幅度降低.该研究成果对火驱方案编制具有一定指导意义.
为了解决目标移除篡改视频时域检测和定位不准的问题,提出了一种基于三维双流网络的视频篡改取证方法.首先,利用空域富模型(SRM)层提取视频帧的高频信息;然后,使用改进的三维卷积(C3D)网络作为双流网络的特征提取器从高频图像帧和原始视频帧中分别提取高频信息和低频信息;最后,通过紧凑双线性池化(CBP)层将两组不同的特征向量融合成一组特征向量并用于分类检测.实验结果表明,在SYSU-OBJFORG数据集中,所提方法在全部视频帧中的分类准确率上具有优势,使视频目标移除篡改时域检测和定位更加准确.
火驱存在原油低温氧化和高温氧化2种燃烧状态,针对低温氧化过程不稳定、热效率低、采出程度低等问题,以杜66块火驱为研究对象,开展了室内物理模拟和数值模拟实验,通过耗氧量及不同组分尾气数据的历史拟合,建立了火驱反应动力学模型,构建了基于火驱前缘初始温度、通风强度的高温与低温氧化转换界限图版.研究表明:高温氧化下,杜66块原油视H/C原子比为0.5~2.0,CO/CO2体积比为0.13~0.40;低温氧化过程燃烧不稳定,易熄灭;杜66块火驱高温与低温氧化的临界前缘初始温度和通风强度分别为280℃、1.0 m3/
燃气是城市生活中重要的能源,而燃气管线作为输送和分配燃气的载体,更是起着不可或缺的作用。由于燃气具有易燃、易爆、有毒的特点,所以燃气管线事故如果发生的话,将产生严重的后果,对人们的生命财产、经济和社会都有着重要的影响,因此燃气风险评估具有重要的意义。而现存的评估技术,大多数以定性或者半定性的方法为主,依赖专家的评判,考虑的因素不够细致,缺少了准确性和客观性。因此,准确量化的风险评估方案以及合理、高
针对车联网电子证据共享中的隐私和安全问题,提出了一种基于签密和区块链的车联网电子证据共享方案.所提方案将证据密文和证据报告分别存储于云服务器和区块链,以实现电子证据的安全存储与共享.利用基于身份的签密技术保证了数据的机密性,运用代理重加密技术实现了保险公司对车联网电子证据的共享.引入聚合签名技术,降低了多个车辆用户签名验证的计算开销;采用信誉激励机制提高了电子证据的可靠性.安全性分析表明,所提方案满足数据的机密性、完整性、可验证性和不可伪造性.与现有方案相比,所提方案在计算开销方面具有一定优越性.
针对相同地质条件或施工工艺下,页岩气水平井产能差异较大的问题,以威远页岩气田WH平台为例,筛选出12项参数,利用主成分分析法,明确产量主控因素.结果 表明:利用主成分分析法提取的2个主成分综合反映了原始参数94.09%的信息;压裂长度、优质储层厚度、压裂段数、压裂液用量、优质储层钻遇长度和优质储层压裂长度为WH平台水平井高产主控因素.以优质储层厚度、优质储层压裂长度和压裂液用量为代表构建了一种同时考虑SRV 3个维度的综合性参数“SRV因子”,通过与产量进行标定,建立了气井产量预测模型,实现产量快速准确预