基于流式数据的智能推荐系统研究

来源 :安徽农业大学 | 被引量 : 0次 | 上传用户:kayak6789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科学技术的发展,数据呈爆发式增长,在海量数据中快速精准的挖掘所需信息已成研究热点,推荐系统由此应运而生,大数据环境下的信息挖掘已成研究热点。现有推荐往往都是离线计算,定期更新推荐结果,实时性不够,且推荐系统普遍存在冷启动与数据稀疏性问题,在信息为王的时代,如何快速、精准的响应用户需求亟待解决,传统的单机模式需要耗费大量时间进行推荐算法的迭代计算,难以满足当今的业务需求。通过对现有大数据处理框架的对比,采用Spark大数据计算处理引擎,借助其基于内存计算的优势,提高推荐系统的性能。本文主要研究Spark平台下基于流式数据的组合推荐算法,并以图书推荐为例进行流式实现。主要包括以下两个方面:(1)流式数据下推荐算法并行化研究。在推荐算法与分布式计算相关理论研究的基础上,对模糊C均值(Fuzzy C-Means,FCM)聚类算法和交替最小二乘法(Alternating Least Squares,ALS)进行分析并基于Spark框架进行并行化设计。(2)流式数据下推荐算法并行化实现。为解决传统推荐算法的数据稀疏和冷启动问题,我们将ALS算法与FCM算法相组合,设计实现并行化组合推荐算法AAF(ALS AND FCM),针对新用户,把属性相近的用户聚集在一起,根据聚类簇中已有的推荐关系对新用户进行推荐,而老用户则在聚类簇中通过ALS算法对用户评分缺失项进行填充,随后计算评分矩阵获得Top-N推荐。首先是对数据预处理,通过T-C模型将借阅时间与借阅次数转换为用户-图书评分,接着构建用户-图书评分矩阵,实现组合推荐算法AAF,最后对系统进行性能优化。实验结果验证了AAF算法在Spark集群环境下推荐结果优于单一推荐模式,算法的相关指标与单机环境基本一致,精度损失问题并不明显,随着数据量的增加,算法融合后的运行时间大大缩短,计算效率显著提升,满足实时推荐的性能要求。
其他文献
从多种纹理的自然图像,或“主结构+纹理”镶嵌图像中高效提取结构信息是计算成像和图像分析的基础研究课题。该技术不仅能大大提高图像理解质量,还能应用于目标检测和显著性
随着知识经济时代的到来,企业家人力资本继劳动、资本和土地之后,成为生产力中最为活跃的第四个要素,不但关乎企业的生存和发展,更是国家、地区乃至企业获得持续竞争优势的关键。
本文主要以轴承保持架为研究对象,根据产品的特点以及其冲压模具设计的要求进行模具设计,并对其加工过程和参数进行研究。首先,论文简要介绍了冲压模具设计基础,并对影响金属
要落实全面从严治党,就要牢牢把握全面从严治党的深刻内涵。$$严守党的政治纪律,核心是要做到“三个自觉”:一是要自觉在思想上、政治上、行动上同以习近平同志为总书记的党中央
报纸
随着油田开采时间的延长,地面设备逐渐老化,管线结垢、腐蚀问题越来越严重。设备的老化给油井热洗工作造成了很多影响。本文通过对油井参数的影响因素进行分析,根据单井热洗
本世纪生物医用材料迅猛发展,其中镁合金作为生物医用材料有诸多优于其他金属材料的性能。本论文以制备适于生物医用的镁合金材料为目的,以Mg-Mn和Mg-Zr合金为基础,添加Ca、Z
采用分阶振幅和恒定振幅对不同薄金属材料(0.1mm厚的铝片和镀镍钢片搭接成锂电池极耳)进行超声焊接,利用3D共聚焦显微镜分析了焊接接头表面形貌特征,并通过剥离试验测其接头
快递物流业是一种新兴服务业,是物流业的重要组成部分。我国快递物流业近年来随着网络购物模式的巨大发展,业务量呈现了高速的增长,2014年已经超越美国,跃居世界第一。然而,
近年来,随着微信、微博、QQ等移动网络社交工具的广泛使用,社交平台已不再仅局限于交流互动的功能,越来越多的人开始依靠其做起了买卖,微商即在此条件下应运而生,而女性作为
格式化的责任免除条款是保险合同中免除或者限制保险人责任的条款。由于保险人在设置格式化责任免除条款时出于对自身利益的考虑,使格式条款本身出现缺陷,导致该责任免除条款