基于云计算的推荐算法研究

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:asdfghjkh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在电子商务高速发展的今天,人们的生活方式发生了很大变化,我们只需要坐在电脑前或者使用任意能够接入互联网的终端就可以足不出户获取想要的东西。但是信息的爆炸一方面使我们有了很多选择,另一方面也增加了选择的困难,我们很难从海量信息中过滤掉不相干的资讯。推荐系统就是在这样的背景下诞生的,它的作用就是根据一定的知识来为我们挖掘出有用的信息。人们提出了很多不同的技术来实现它,协同过滤(Collaborative Filtering)是其中发展最为迅速的方法之一,也是在电子商务领域应用最广泛的方法。因此本文选择它作为推荐系统研究的重点。首先本文在研究传统协同过滤算法的基础上提出了一种减轻由于数据稀疏性对推荐效果产生负面影响的方法。传统的相似度算法从数学角度讲是非常严谨的,但是在缺乏数据支持的时候实用性稍差,为此本文提出一种基于项目相似度的数据填充方法,其目的在于当原始数据集比较稀疏时为算法提供足够的数据支持。在解决数据的问题后,本文还提出了一种当用户-项目矩阵(评分矩阵)有更新需要重新产生推荐列表时减少计算量的增量式算法。该算法主要使用了一种以空间换时间的思想,通过缓存中间数据来达到简化计算的目的,就可以在一定程度上提高系统的性能。经实验证明,本文提出的改进算法在MovieLens的数据集上比传统方法有更好的预测性能和运行效率。云计算是当今IT行业最热门的词汇之一,它被认为是引领下一次行业革命的核心技术。因为云有着非常强大的计算和存储能力,因此本文思考如何利用云计算的优势来解决传统协同过滤推荐算法所遭受到的严重的可扩展性问题,为此采用了Apache旗下的开源项目Hadoop作为算法的云开发平台。为在该平台上实现上述的改进算法,本文亦对其分布式文件系统HDFS和MapReduce编程框架进行了比较深入的研究。最后的实验结果显示当集群中的机器逐渐增多时,算法的运行效率也在不断提高,说明算法有比较理想的并行性能,也因此凸显了云平台与推荐算法结合的优势。
其他文献
学位
随着网络的迅猛发展、网络安全问题的日益突出、黑客入侵活动日益猖獗,越来越多的系统遭到了入侵的威胁。以计算机为核心的信息安全是涉及社会、政治、经济、军事等领域的重要
随着变电设备状态检修辅助分析系统的运行,系统中积累了大量宝贵的历史数据,为了充分利用这些数据,应建立数据仓库,以满足人们的决策分析需要。本文着重讨论了数据仓库的设计与实现。 在对数据仓库技术的深入研究的基础上,我们设计并实现了一个变电设备状态检修数据仓库系统。系统采用操作数据库一操作数据存储(ODS)—数据仓库(DW)三层体系结构。 操作数据存储ODS(Operational Data
作为一种高效、深层次的数据分析处理技术,数据挖掘目的是从大型数据库或数据仓库中提取隐含的、未知的、非平凡的以及有潜在应用价值的信息或模式,这些信息将为人们进行各种决
在国内,传统的电子化交易系统采用C/S模式,通信效率较低,安全性较弱,在身份认证、数据加密方面不够重视。为解决这些问题,需要开发一套新型商品电子交易系统。基于这种需求,河南省重
图像复原(Image Restoration)是数字图像处理中的一个重要分支,也一直是图像处理中的一个难点。它的主要目的是改善给定的图像质量,利用退化现象的某种先验知识来重建或恢复原
分布式对象技术是伴随着网络技术而发展起来的一种面向对象的技术,它为网络计算平台上软件的开发提供了强有力的解决方案。目前,分布式对象技术已经成为建立服务应用框架和软件
20世纪60年代,美国Michigan大学的J.Holland教授首先提出了遗传算法(Genetic Algorithm,缩写为GA),它是模拟达尔文的遗传选择和优胜劣汰的生物进化过程的计算模型。经过三十多年
面向对象是一种新兴的程序设计方法,其基本思想是使用对象、类、继承、封装、消息等基本概念来进行程序设计。面向对象方法包括分析、设计和实现活动,分析的主要任务是通过分析
码率控制是多媒体通信中的关键技术之一,特别是在网络带宽无法预测和控制的Internet环境中,码率控制对多媒体系统的服务质量起着决定性的作用。 本文首先分析了视频编码关键