基于Spark的推荐算法应用研究

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:haobishuiduo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着大数据技术的发展,Spark计算框架愈来愈被人们所喜爱,有了很广泛的应用前景。互联网用户的增多带来了网络上爆发式增长的数据,对这种海量数据的分析挖掘与特征提取成为了非常重要的研究方向。同时,伴随着人工智能的发展,机器学习和深度学习研究也愈演愈烈,这些学习算法就是不断使用数据对模型进行训练优化,最后达到分类或者聚类等相应目的。推荐系统可以说是一种分类系统,它根据用户在网络中的各种历史数据,通过数据挖掘相关算法将项目分为用户喜欢和不喜欢等几部分,最后给用户推荐相应项目。传统计算方式的推荐算法的实现需要耗费大量的时间和系统资源,它需要对大量的数据进行迭代计算,因此会产生许多中间数据,涉及到这些中间数据的存储,为了解决这个问题,人们开始将推荐算法运行在分布式计算平台上,Spark的出现满足了推荐算法并行运算这一需求。Spark引入了称为RDD的抽象数据集,保证了数据的高容错性,同时底层设计为基于内存的计算,让迭代过程的中间结果可以存放在内存里给下次迭代使用,而不用反复读写磁盘,大大节省了计算时间。通过对比研究近年来国内外推荐算法在Spark计算框架中的应用,发现在Spark平台上,推荐算法的效率有很大的提升。本文在Spark平台上对推荐算法相关技术进行研究,主要包括以下几个方面:深入研究Spark计算框架的搭建与计算原理,并在Spark平台上实现基于内容的推荐算法、基于用户的协同过滤推荐算法以及基于ALS矩阵分解的协同过滤推荐算法。同时,设计并实现了组合推荐方法,详细分析各个算法的优缺点以及具体实现流程,并对算法进行细节优化。针对基于内容的推荐算法,设计了对数据特征的预处理,更加方便可靠地计算项目的相似度;针对基于用户的协同过滤推荐,在计算相似度时加上了用户的潜在兴趣相似度,即评分相似的用户,所看过项目的相似度。实验结果表明,在Spark平台下的推荐算法执行效率有很大的提高,组合推荐算法的策略使推荐结果的准确度比各个方法独立推荐结果要好,且健壮性更强。同时算法的部分优化对特征的保留有所帮助,使得推荐结果的准确性等指标有所提高。
其他文献
《阿佩乔尼大提琴奏鸣曲》(D821)即阿佩乔尼琴和钢琴所作的a小调奏鸣曲,简称阿佩乔尼奏鸣曲。舒伯特于1824年11月维也纳谱写的一部室内乐作品,编号D.821。它是历史上阿佩乔尼
基于2016年中国家庭追踪调查的数据,探究互联网使用对于家庭消费影响效应和作用机制。结果表明:互联网的使用对于家庭消费有显著的促进作用,其中互联网的购物用途对于家庭消
从非史密斯地层学关于构造岩片的体制观与方法论出发,狮泉河蛇绿混杂岩带可解析为蛇绿岩岩片、硅质岩岩片、复理石岩片、礁灰岩岩片、火山岩岩片、碳酸盐岩片等多个构造岩片
为了解决目前汽轮机及其调速系统参数辨识传统方法过程复杂、耗时长、人为干预较多等问题,提出了一种基于粒子群算法的一键式智能辨识方法。综合考虑机组实际运行参数偏离设
目的:1.探讨在面肌痉挛微血管减压术(Microvascular decompression,MVD)中,利用术中电生理监测技术,实时监测术中侧方扩散传导反应的变化,观察其与手术疗效的关系。2.在面肌
现行船舶监管法律并未明确排除对智能船舶的适用,但相关法律规则都是以传统船舶为对象制定的,并未考虑到智能船舶的特殊性,因此直接适用于智能船舶会导致存在很多问题。本文
随着电网规模和发电机容量的不断增加,变压器的电压等级和容量也在不断提高,因此导致变压器的结构变得越来越复杂,由漏磁场引起的金属构件(升高座、油箱等)局部过热问题会愈
<正> 血尿的病因很多,如泌尿系统炎症、结石、结核、肿瘤和外伤,以及某些全身性疾病等因素都可能引起血尿,应采取针对病因进行治疗。但也有经过全面系统的检查,一时找不到病