基于Spark平台推荐系统研究

被引量 : 0次 | 上传用户:walkman73
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代互联网的高速发展产生了大量富有价值的互联网信息,如何从海量的数据中挖掘出有用的信息是具有重大意义的课题。大数据平台的研究与发展就是在这一背景下兴起。Hadoop的诞生使人们关注Map Reduce这一计算模式的研究,而Spark通过引入RDD数据模型及基于内存的运算模式,使其能很好地适应大数据的数据挖掘这一场景,并且在迭代计算方面优于Hadoop,迅速成为了广大企业、学者的研究重点。推荐系统是一种从海量用户行为数据中挖掘有用信息并提供给用户的应用,推荐系统中推荐算法的实现是数据挖掘的重要部分。基于传统计算机的推荐算法实现过程需要耗费大量的时间,不能满足当今的商业需求,而结合分布式计算平台的并行化实现能有效解决这一问题,并且推荐算法实现过程中存在多次迭代计算,Spark的出现正是迎合了推荐算法并行化实现这一需求。鉴于目前国内外基于Spark平台的各类应用的发展趋势,本文将基于Spark平台对推荐算法相关技术进行研究,主要包括以下两个方面:(1)基于Spark平台推荐算法并行化研究。在对Spark平台及推荐系统相关技术研究基础上,首先对基于Spark平台推荐算法并行化实现过程进行了设计,详细分析了算法在提交后集群节点的作用及任务的分配情况;其次对基于Spark平台推荐算法并行化进行实现,主要实现了基于用户的协同过滤、基于物品的协同过滤及基于ALS模型推荐算法,给出了详细的并行化实现过程,并加以分析;最后以实例的形式详细分析了Spark在算法实现过程中,如何进行数据及任务的并行化。(2)基于Spark平台并行化实现的优化。优化主要包括两个方面:平台的优化及推荐算法的优化。在推荐算法并行化实现过程中,发现Spark集群节点异构情况下,存在任务调度不合理问题,提出异构Spark集群自适应任务调度策略HSATS.基于邻域推荐算法优化方面,提出对用户或物品的隐含标签属性进行向量化,并最终与相似度计算进行融合。基于ALS模型推荐算法方面,设计了一种新的损失函数,将模型训练前的用户及物品相似性信息融合进去。实验结果表明,Spark在推荐算法这一需要多次迭代的并行化实现过程中性能优于Hadoop。在异构Spark集群情况下,HSATS自适应任务调度策略能减少作业的完成时间,集群节点资源利用更合理。提出的推荐算法优化方案,提高了推荐系统的评测指标。
其他文献
褚人穫,字稼轩,一字学稼,号石农,江苏长洲(今苏州)人,著有《坚瓠集》六十六卷,增补《通俗隋唐演义》一百回,及《读史随笔》、《退佳锁录》、《鼎甲考》、《圣贤群辅录》、《续蟹谱》
传统的音乐教育注重乐理知识的传授,忽视了小学低年级学生的思维方式是以具体形象思维为主的,而音乐形象又是不易直接感知的抽象形象。随着现代教育技术的发展,多媒体课件可以集
重视人才资源配置和使用是世界性的发展趋势,世界各国都把有效配置和使用人才资源作为发展经济和谋求国家发展的基本战略。我国自1986年施行的专业技术职务聘任制,就是希望用“
目的:探讨大鼠反复轻度脑创伤(rm TBI)后外周血中T细胞亚群的变化及其意义。方法:选择SD大鼠,采用控制性脑皮质撞击法(CCI)制作rm TBI大鼠模型,随机分为假手术对照组以及损伤后1、2
随着国际交往的日益频繁,航空器携带鼠形动物时有报道。鼠类是多种疾病的储存宿主,能传播鼠疫、流行性出血热等30多种传染病。历史上由鼠类引起的鼠疫3次大流行夺取了近1亿人
1.目的:观察紫正地黄汤对于急性化脓性扁桃体炎的临床疗效,通过对患者临床症状、体征的记录和对NLRP3炎性小体及其下游炎症因子的检测来探析紫正地黄汤治疗急性化脓性扁桃体
远程教育的出现推进了人才培养模式改革创新,促进了教育大众化进程和教育公平化、均衡化发展。远程教育成绩显著,但也存在问题。出现这些问题的一个重要原因就是缺乏科学的教育
从函授教育、广播电视教育到现代远程教育、开放教育的发展历程中,中国远程教育的质量一直受到质疑,制约了远程教育的进一步发展。本研究的目的是通过对国际知名远程教育机构
建设社会主义民主政治是中国共产党始终不渝的奋斗目标,新中国成立后,中共三代领导集体在民主政治建设的问题上,不仅从理论上,也从实践上进行了探索,取得了令人瞩目的成就。 早
采用多元醇法制备ZnFe2O4纳米颗粒,研究回流时间、升温速率和回流温度对产物尺寸、形貌和磁性能的影响。通过X射线衍射仪(XRD),透射电子显微镜(TEM),傅里叶红外光谱和振动样品磁