基于矩阵分解和聚类的协同过滤算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:liangxinnet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着计算机技术的不断创新与网络科学的迅猛发展,对于推荐系统的各方面研究得到诸多学者更多的关注,在实际网络环境中,经常会遇到信息过载的现象,推荐系统能很好的对其起到缓解作用。在众多推荐算法中,协同过滤算法是该领域中比较经典且运用最多的算法之一。用户在网上浏览信息时会留下历史记录或评分,协同过滤算法会根据这些信息,利用相似度的大小来衡量用户或物品之间的相似性并确定该用户或物品的最近邻居集,为了得到最终的推荐结果,需要在指定邻居集数据中对未打过分的项目进行评分的预测,进而针对不同对象生成相应的推荐服务。目前,针对多样化的应用场景和适用环境,对协同过滤算法也相应的做出了改进与调整,使得改进后的算法能更好的提高推荐系统的各方面的性能,产生更好的推荐;然而,当今的互联网如此迅猛发展,不仅拥有着海量不可预测的大规模数据,还有着各种不同的繁琐数据类型,与此同时,对推荐系统信息的处理和计算速度也提出了更高的要求,这使得传统的协同过滤算法面临着巨大的挑战,大数据信息带来的稀疏性和算法的可扩展性问题让目前的推荐系统不能很好地产生相应的推荐功能。针对以上分析的内容,本文在协同过滤算法的研究基础之上,提出了一种在Spark平台中,结合ALS矩阵分解和改进的K-means聚类的协同过滤推荐算法,较好的解决了在大数据背景影响下带来的稀疏性和运行速度缓慢等相应问题。具体工作如下:首先,本文利用ALS矩阵分解的方法来对海量数据构成的高维度,高稀疏性的矩阵进行矩阵补全,达到对数据预处理,填充矩阵的工作。该方法可以较好的支持并行计算,提高了运算速度;其次,本文采用以最大距离来确定中心点的K-means改进算法,对填充好的矩阵信息构建聚类模型。最后根据用户之间的相似性确定在聚类模型中该目标用户的最近邻居集合,并进行相应的预测分析,产生推荐;本文中将改进的算法应用在Spark平台上,使用MovieLens的信息作为数据集,进行并行化实验,填充矩阵和建立聚类模型的工作可以在Spark平台上进行离线的计算,大幅度提高速度并降低了线上具体的运算量;经过实验,结果表明本文提出的基于矩阵分解和聚类协同过滤推荐算法可以较好的缓解因为大数据所引起的高维矩阵稀疏性等问题,使得算法有着准确的推荐精度,高速的处理速度和良好的可扩展性。
其他文献
可靠性维修性保障性(RMS)技术是提高装备质量的核心技术,在装备建设和发展中具有重要的地位和作用。提高可靠性可以降低故障次数、减少维修保障工作量,提高装备安全可靠地完
文章通过对现阶段出口贸易的现状和存在问题的分析,提出进口贸易和进口战略实施的必要性及注意问题,从而实现对外贸易的平衡、协调发展.
目的研究卵巢癌组织中βⅢ-微管蛋白表达,βⅢ-微管蛋白表达与紫杉醇耐药的关系,进一步探讨βⅢ-微管蛋白能否作为预测卵巢癌对紫杉醇化疗效果和预后的指标。方法入选60例原
研究背景:胃癌是最常见的消化道恶性肿瘤,五年生存率仅为15-20%,化疗作为中晚期胃癌、术后复发转移及残胃癌的主要治疗手段之一,在肿瘤治疗中有着重要的地位。但随着化疗药物
自1995年世界贸易组织正式运行以来,我国连续15年成为全球反倾销最大受害者。而伴随金融危机的爆发,中国出口产品更是成为众矢之的。进入危机减弱、经济复苏的2010年,中国出
目前,虽然浮法玻璃的需求依然保持旺盛的态势,但是由于2009年建材行业疯狂投资的效应在2010年逐渐显现,2010年6月,水泥供给压力较大的我国西南、西北地区水泥价格同比下降。只有
随着纳米技术的飞速发展,人工纳米材料被广泛应用到能源、医药、军事、环保等各个领域。人工纳米氧化铜(Cu O NPs)由于其独特的物化性质和广泛的用途备受人们关注,其在生产及
在本文的研究中,分析了平衡计分卡如何在建筑企业管理中应用的问题.从平衡计分卡所含的四个方面出发,阐述平衡计分法在建筑企业实施的步骤,并为四类具体的目标找出最具有意义
目的本研究比较改良DCF方案(mDCF方案,CF+5-FU+多西紫杉醇+顺铂)联合康艾注射液与单用mDCF方案治疗进展期胃癌的近期疗效、毒副反应、临床症状及生活质量,探讨康艾注射液联合
初中数学新课程标准强调"人人学有价值的数学,人人获得必要的数学,不同的人在数学上得到不同的发展",并要求"从生活实际中引入数学,联系实际学习数学,结合实际运用数学".同时,心
期刊