基于Hadoop平台的协同过滤推荐算法研究

来源 :广西师范大学 | 被引量 : 3次 | 上传用户:allanvte
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,人们在分享大数据带来益处的同时,也遭遇到大数据带来的麻烦。当搜索某种信息时,相关信息可能会铺天盖地而来,面对这些海量数据,人们往往无法快速定位到自己想要的那部分信息,用户需要花费很多时间和精力去甄别信息的有效性和可用性。人们对信息的使用效率随着数据量的增长呈现出急速下降的趋势,这就是著名的信息过载(information overload)问题。虽然谷歌、百度等搜索引擎提供了一些帮助,但依然未能解决人们对信息的个性化需求。在电子商务(如Amazon、淘宝、京东等)和社交网络(如Twitter、新浪微博等)出现后,人们对信息的个性化需求更为强烈。于是,怎么在大数据背景下帮助人们快速找到其感兴趣的、满意的信息,已成为学术界和企业界关注的热点。为了解决这些社会需求,研究者们提出了个性化推荐系统,这是一种通过挖掘用户历史数据,然后向用户提供其很有可能感兴趣的信息的一种智能系统。个性化推荐系统是否能提供用户满意的服务取决于个性化推荐算法,好的算法才能推荐出好的结果。在众多个性化推荐算法中,目前最成功的策略之一是协同过滤算法。尽管协同过滤算法取得了很好的效果,但还是存在着不少缺点,如数据稀疏问题,可扩展性问题,冷启动问题等。为了进一步提高个性化推荐效果,本文在阅读大量相关文献并深入学习协同过滤推荐技术的基础上,对已有的协同过滤推荐算法进行改进,提出了基于用户评分差异计算用户相似度和基于项目聚类评分预测的协同过滤算法,并在Hadoop平台上实现所提出的算法。具体的研究内容如下:(1)提出了一种新的用户相似度计算方法一基于用户评分差异的相似度计算方法,该方法综合考虑了用户之间的评分差异、评分偏好和共同评分项目数三个因素。此方法挖掘并应用更多的用户评分信息,特别是应用了均值以下的用户评分信息,有效提高了用户偏好相似性的准确率,并能够缓解数据稀疏性带来的推荐质量下降的问题。(2)改进传统的基于近邻评分预测方法(NNSP),提出基于项目聚类的评分预测方法(ICBSP),实现对未评分项目的评分预测。该方法的核心思想有两个,一个是考虑邻居用户对待预测项目的评分可以有多个评分值,在其中选择最大者作用户最终评分值;另一个是使用项目权重因子和用户相似度共同作为权重值来调节各个不同的待预测项目在特定用户中应该占有的权重。这样可以有效地提高评分预测的准确度,提升推荐质量。(3)本文还在Hadoop平台上对基于用户评分差异相似度计算方法和基于项目聚类评分预测方法的协同过滤推荐算法进行分布式实现,即利用MapReduce计算模型实现协同过滤算法的分布式计算,把在协同过滤算法中耗时的计算过程以离线的方式计算,把不耗时的过程以在线方式计算。这样不仅可以解决算法的可扩展性问题,还在一定程度上解决了在海量数据的条件下信息推荐的实时性问题。(4)本文在Movie Lens提供的电影数据集上对所提出的个性化协同算法进行了实验,结果显示本文提出的方法在推荐效果方面明显优于几个已有的方法。
其他文献
缆索表面的健康状态与缆索的使用寿命息息相关。对缆索表面进行有效的检测是桥梁维护工作的重要内容。传统的人工检查方法效率低、成本高,而且会给工作人员带来较大的安全隐
输电塔-线体系作为高压电能输送的载体,是重要的生命线工程。高压输电塔-线体系具有塔体结构高耸、跨距大和带有柔性的特点,在风、雨等外力载荷作用下,其塔耦合振动响应十分明显。在我国,目前对输电塔线体系系统的在耦合作用下理论研究还不够深入,导致在外界载荷作用下倒塔情况时常发生,严重影响了输电线路安全。因此,建立输电塔-线体系结构气弹模型并进行模态分析,对其进一步从理论上和试验上进行深入研究就具有重要的工
PPP模式通过吸引社会资本在基础设施建设的投资,在一定程度上改变了政府建设项目的单一财政投资主体的问题,起到了减轻地方政府财政压力,分散化解地方政府债务风险,拓宽城镇
惯性导航是一种实时更新载体位置、速度和姿态信息的过程,通过利用加速度计和陀螺仪的测量信息来进行导航解算。本文重点针对基于激光陀螺的捷联惯导系统的系统级标定及初始
近年来,以低成本、低功耗为特点的无线传感器网络(Wireless Sensor Networks,WSNs)技术,被广泛应用于科学研究、灾害预警、环境监测、战场监视、智能交通、工农业生产等领域,
信息隐藏技术是一种将秘密信息嵌入到文本、音频、图像以及视频等数字媒介中的技术。信息隐藏技术应用于多个领域,由于隐藏的信息能避免攻击者的注意,从而实现对隐藏信息的保
文本作为人们使用语言交流的重要媒介之一,在人们的历史活动中发挥了至关重要的作用。文本表示作为机器对文本理解处理的第一步,也显得越来越重要。当前语义表示方法,主要是
微蜂窝相比于宏蜂窝有着发射功率小、体积小的特点。第五代移动通信(The5th Generation,5G)在系统速率和用户容量方面尤其是多址接入方式有更高的要求。非正交多址接入技术由
近年来,由温室气体排放导致的全球变暖现象正受到国际社会的广泛关注,全球变暖会引起降水量重新分配、海平面上升、冰川和冻土消融等问题。与此同时,废水、废气、废渣污染物的排放也一直在危害自然生态系统的平衡和威胁人类的生存。在我国,针对于温室气体的研究正不断开展,同时在与温室气体相关的国际会议上我国也扮演着越来越重要的角色。随着国家“十三五”战略性新兴产业发展规划、国家“十三五”控制温室气体排放工作方案和
随着城市化进程加快,城市居民消费水平大幅提高,各种社会经济活动都会产生大量的垃圾。据统计,全国三分之二的城市处于垃圾的中心,每年都有超过5亿平方米土地遭到垃圾的侵蚀,造成300余亿元的直接经济损失。今后30-50年是我国人口和城市化的高峰期,可以预见城市生活垃圾的清运系统和清运能力即将受到严峻挑战。目前,我国大多数城市是“混合收运、集中处理”的生活垃圾收运处理模式,但这种模式较为传统守旧,不仅不利