基于Spark的可扩展的协同过滤推荐算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:sw_8818
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网特别是电子商务规模的不断发展,系统中的用户和项目的数据量都在迅速增长。推荐系统可以为用户提供个性化的推荐,因此得到了广泛的应用。协同过滤凭借其简单合理的推荐逻辑成为推荐算法中应用最广泛的算法,但是,该算法存在扩展性较差的问题。针对该问题,文章在基于项目的协同过滤方法的基础上提出了一些改进方案。本文的研究内容如下:(1)在度量项目的相似性时,常用的相似性计算方式并没有考虑到共同评分个数对相似性的影响。针对这一问题,本文提出了一种改进的相似度计算公式,在计算相似度时,该公式考虑了项目间的共同评分个数。和常用的相似度计算公式相比,该公式能够较好的度量项目的相似度。(2)为了提高系统的可扩展性,文章提出了一种基于模糊聚类的协同过滤推荐方法。该方法在离线阶段利用模糊聚类技术将项目划分到不同的项目簇中,然后只在簇中计算相似度和搜索邻居,这大大减小了相似度计算阶段的运算量和邻居搜索阶段的搜索范围。(3)当系统中出现新评分时,传统的协同过滤方法需要在整个项目空间内更新相似度,这种更新方式耗费了较大的时间和资源代价,影响了系统的可扩展性。针对该问题,本文提出一种基于增量更新的协同过滤推荐方法,当系统获取到新评分时,该方法根据增量更新规则,只计算相似度改变的项目之间的相似度,然后根据最新的相似度搜索邻居并作出推荐。(4)采用MovieLens和Yahoo!Movies数据集,对论文提出的改进方案进行了相关实验。实验结果表明,改进的算法能够在一定程度上提高推荐系统的可扩展性,同时保持较好的精确度。
其他文献
近几年来,P2P网络得到了飞速发展,其系统规模不断扩大,应用越来越广泛。P2P网络打破了传统的C/S模式,网络中每个节点的地位都是相同的,具备客户端和服务器的双重特性。在开放
近年来,随着网络技术、通信技术、嵌入式技术的飞速发展,无线传感网络技术对人们的生产和生活带来越来越大的影响,得到了广泛的应用。短距离无线通信网络技术主要包括以下几种:Wi
21世纪是信息的社会,油气勘探开发的信息化是油田企业发展的必然趋势,数字油田是油气勘探开发信息化的最终目标。本文着眼于油气田开发信息化的一个侧面——油气田开发动态信
在旅游方案和配餐推荐等一些特定领域,传统的项目(item)推荐系统已经无法满足用户的需求,包推荐(package recommendation)组合式推荐的方式也因此出现。由于包推荐项目组合的
随着计算机技术和网络技术的飞速发展,信息化管理的思想已逐渐渗透到医疗卫生行业领域。医院信息系统(HIS)就是利用计算机技术和网络技术,为医院所属各部门提供病人诊疗信息和
随着汽车电子技术的不断发展,现场总线技术被越来越广泛的应用于汽车网络。但是,至今仍没有一个通信网络可以完全满足未来汽车的有关成本和性能的所有要求。因此,仍将继续采
自主虚拟人是虚拟环境中由计算机生成,具有自主行为控制和自动画表现能力,可对环境变化及时作出合理反应,用于模拟现实世界里人类的行为和特征的仿人软件智能体。自主虚拟人
无线传感器网络作为一种全新的信息获取和处理技术,随着低耗能电子和射频技术的发展,其技术已在国防军事、空间探索、环境监测、反恐抗灾等诸多领域得到广泛应用。但是对于大多
浅层语义分析的目的是分析出句子中谓词(可以是动词或名词等)的语义角色成分,包括施事者、受事者、时间、地点等。作为浅层语义分析的一种实现方式,语义角色标注(Semantic Ro
图像作为一种信息载体,由于其直观、信息量大等特点,得到了广泛的应用。但是,图像在生成或传输的过程中由于种种原因,常常受到噪声的污染。因此,为了能够避开噪声的干扰提取