基于分区混合模式的电影推荐系统的设计与实现

来源 :汕头大学 | 被引量 : 0次 | 上传用户:lidids
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,数据过载日益严重,实现信息的快速高效挖掘极具价值。近年来兴起的推荐系统融合了信息挖掘和人工智能技术,契合了网络信息挖掘的需求。在传统的推荐系统中,存在着冷启动、数据稀疏以及扩展性等问题,制约着技术的进一步发展;同时单一的推荐算法效果较差,已经无法满足用户日益增长的需求。针对上述问题,本文在调研了大量推荐系统和大数据处理框架后,提出了一种基于分区混合模式的电影推荐系统,并在Spark分布式平台上搭建实现。相关研究工作如下:(1)针对LFM算法在小样本数据集上的数据稀疏问题,引入了基于TF-IDF的UGC算法进行优化,将UGC和LFM融合处理后作为新的离线推荐算法。实验结果表明,相比于单一的LFM算法,改进后的算法的三项性能评价指标都有一定的提升。因此通过算法融合的方式可以弥补单一算法的缺陷,UGC算法起到了辅助修正LFM算法误差的作用。(2)针对目前Spark生态圈中主流的余弦相似度在线推荐算法所存在的缺陷,引入流形空间中测地线度量,并实现了相应的算法。所提出的新的推荐算法既考虑了数值的差异,也兼顾了电影数据分布的空间结构。实验结果表明,作为信息几何领域与大数据在线推荐领域的一个有益结合,所提出测地线算法的三项性能指标与传统余弦相似度等算法相比具有明显的优势。(3)基于上述改进后的离线和在线推荐算法,严格按照软件工程的思维,从实现和性能两方面综合考虑,设计并搭建了一套完整的、能够与用户友好交互的电影推荐系统。整个推荐系统基于分区混合模式来设计,并由在线推荐区、离线推荐区和热门统计推荐区三大部分组成,具备常用的查看、评分和搜索等基础功能。该系统能够稳定高效地完成预设推荐,验证了分区混合模式应用的可行性和有效性。
其他文献
机器人的应用已经迅速扩展到娱乐、家庭、工业、医疗等多个领域。随着集成电路、5G通信、嵌入式等相关技术的进步,人们对于机器人的需求已经不再局限于简单的控制,拥有良好的人机交互能力是机器人发展的核心方向。基于高可靠性、低成本的机器人控制系统,并融合视觉、听觉等感知技术,来提高机器人的智能交互能力已成为近年来的研究热点。在小型人形机器人领域,低成本的控制器和开源、移植性高、可裁剪性高的操作系统组成的控制
群体机器人系统的目标搜索和围捕任务作为智能机器人领域一个典型的复杂问题,近年来越来越受到学术界的关注。单体机器人处理复杂任务的能力通常被认为是有限的,而群体机器人系统可以通过局部交互的方式协作完成复杂任务。因此,与单体机器人系统相比,群体机器人系统具有适应性强、扩展性强、可靠性高等优点。类似与自然界生物群体中的集群现象,群体机器人可以通过生成与转换整个集群的形态来实现穿越窄道、货物运输、目标的搜索
近年来,智能机器人技术发展迅速,已应用于诸多领域。部分机器人在原地就可完成作业任务,如生产线上的工业机器人,部分机器人则需要在运动中完成作业任务。自主运动智能机器人需要实时获取位置与姿势(简称位姿)变化信息来控制其自身的运动轨迹。视觉里程计就是运动智能机器人获取位姿信息的关键技术。所谓视觉里程计是利用摄像头获取的图像帧来估计机器人运动中的位姿变化信息,是视觉实时定位与地图构建(VSLAM)系统的关
目的:1.探索急性缺血性脑卒中(Acute Ischemic Stroke,AIS)患者阿替普酶(rt-PA)静脉溶栓后发生出血转化的独立危险因素;2.探讨总胆固醇对AIS静脉溶栓后发生出血转化的预测价值。方法:采用回顾性队列研究方法,连续收集2015年9月1日—2020年8月31日期间因急性缺血脑卒中在深圳市第二人民医院进行静脉溶栓患者553例,根据复查影像结果(头颅CT或MRI)将患者分为出血
长期以来,测试被认为是整个商用集成电路设计制造过程中最关键的环节之一。随着半导体制造技术的快速发展,电路的规模和复杂度与日俱增,导致测试数据和测试时间爆炸式增长,测试成本迅速增加,集成电路测试研究变得愈发重要。在数字集成电路测试中,故障模拟(Fault Simulation)技术是指针对故障模型的模拟。故障模拟对于测试向量生成、故障诊断和可靠性评估至关重要,研究如何对逻辑电路的故障模拟进行加速对集
眼底图像中的视网膜血管作为人体唯一能够直接观察到的深层微血管,通过分析血管的长度、直径、分支模式、弯曲度和角度信息是医生诊断许多严重疾病的重要方法,比如患有心血管疾病、糖尿病、眼科疾病的患者,其视网膜血管结构通常会发生改变且血管周围存在病变区域。眼底图像具有获取方便快捷的特点,而视网膜血管的精确分割是诊断和筛查这些疾病的基本步骤。人工分割眼底血管耗时费力,分割效果依赖于专科医生的主观感受,因此越来
新型冠状病毒病(COVID-19)于2019年爆发,因其传染性很强,已经成为了全球性的健康危机之一。目前,医学界普遍认为逆转录聚合酶链反应(RT-PCR)可检测和筛选COVID-19病例。然而,由于设备的短缺和对检测环境的严格要求,限制了对疑似病例的快速、准确筛查。而且RT-PCR的检测敏感性不够高,导致检测出大量假阴性病例,严重影响了对疑似COVID-19患者的早期检测和治疗。CT扫描成像技术作
随着通信技术的快速发展,人们对无线通信系统有了越来越高的要求。天线作为电磁波接收与发送的设备,在无线通信系统中起着至关重要的作用。介质谐振器天线(Dielectric Resonator Antenna)作为一种新型的天线得到了越来越多的关注,其具有诸多优点:介质谐振器特有的三维结构,使得天线的设计更加灵活;同时介质谐振器没有导体损耗,辐射效率较高;此外,介质谐振器天线还有易于集成,馈电方式多样等
传统的集成电路设计包括系统级软件开发和电路级硬件设计两个部分,并且两个部分是单独完成的,造成设计周期长,产品投放到市场的时间迟。随着片上系统(SoC,System on Chip)概念的提出,将系统的主要功能集合到一块芯片中,设计愈发复杂,手动实现系统级的算法到电路级的硬件描述语言(HDL,Hardware Description Language)的映射,难度增大,风险也加大,传统的集成电路设计
神经精神性狼疮(neuropsychiatric systemic lupus erythematosus,NPSLE)是系统性红斑狼疮(systemic lupus erythematosus,SLE)累及神经系统的表现,具有较高的致残率和死亡率,是SLE患者的主要死亡原因之一,也是SLE主要预后不良因素之一。目前临床上主要使用脑功能成像方法,即使用磁共振波谱(MRS)对患者颅内不同区域的代谢物