基于Hadoop的协同过滤推荐算法的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:qwerasd1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展给各行各业带来便利的同时也产生了大量信息冗余,互联网用户面临严峻的信息过载困扰。以信息检索为目的的搜索引擎,在一定程度缓解了信息过载现象,但是随着数据量的激增和推荐系统的发展,各大社交网站、运营商、电子商务等都推出了各自的个性化推荐产品,这给那些“选择困难户”带来了福音。如今人们追求更加个性化和更加快速的高质量服务,因此,一个可以应用于大数据状态下的推荐策略的实现,成为解决信息过载和提高服务质量的重要手段。本文主要针对改善推荐系统中的数据稀疏性和冷启动问性,提高推荐准确率和算法的运行效率问题,提出了一种融合社交网络信息的协同过滤推荐算法,并在Hadoop平台实现并行化计算。本算法首先对原始评分数据进行预处理,形成对应的矩阵,然后通过矩阵分解的方式,将用户商品之间的评分矩阵和社交信任矩阵分别分解成低维度的用户特征矩阵、商品特征矩阵、用户之间信任矩阵和被信任特征矩阵。通过梯度下降方式对算法的损失函数进行求解,不断更新迭代,产生最优特征矩阵。然后,依据分解后的特征矩阵之间的加权算法对评分矩阵中的空缺数据进行填充,以此解决数据稀疏性和冷启动问题。最后,为填充后的预测数据按照某一用户维度进行排序,将排名最靠前的N个商品推荐给用户。为了验证算法的准确性和有效性,本文使用Epninion数据集采用五折交叉验证方式进行实验分析,验证数据预测的误差值情况和推荐的准确率、召回率和两者的综合评价。最后为了提升推荐系统的扩展性和推荐效率,引入Hadoop平台为上述算法进行并行化分析并进行MapReduce代码实现。并通过分析并行化实现相对于单机模式的加速比和F1值,来验证推荐算法的执行效率与推荐系统的可靠性和扩展性。实验结果证明,文中提出的融合社交网络的协同过滤算法,在降低数据稀疏性的同时,预测评分产生的平均绝对误差和均方根误差普遍更低,算法的推荐准确性更高。通过并行化实现的社交网络推荐算法相比于单机模式提升了整个推荐系统的可扩展性,缩减了算法的执行时间。
其他文献
研究系统论述了城镇化与城乡教育供需结构互动演进逻辑关系,在精心选取指标的基础上,利用静态分析、VAR及相对离差互动发展模型刻画了城镇化与城乡教育供需结构的演化轨迹及
一、引言由于水体污染的危害早已被人们熟知和重视,一百多年来,污水处理技术的研究和应用得到了极大的发展。同样,由于污泥危害的直观性和污泥处置的困难,近年来已对污泥减量和污
为改善化学纤维的亲水性和抄造分散性,并提高纤维间或纤维与基体材料间的黏结强度,介绍了几种化学纤维(聚酯纤维、芳纶纤维、PBO纤维、超高分子质量聚乙烯纤维)的表面处理方法,为
恶性胸膜间皮瘤( Malignant pleural mesothelio-ma,MPM)也称弥漫性恶性胸膜间皮瘤,源自于胸膜间皮细胞,是一种具有很强致死性的少见的恶性肿瘤,近年来发病率逐步增加,男性约为
为了解江苏二棱大麦表型性状特征及其相关性,以1989年以来江苏省审定/认定的32份二棱大麦品种(系)为材料,在江苏沿海地区对其3个农艺性状(株高、穗长、穗粒数)、7个籽粒性状(
20世纪70年代以来,随着翻译研究的"文化转向",越来越多的研究者开始从语言的外部因素入手开展翻译研究.作为翻译过程中最为关键的"人"的因素,译者及其主体性不容忽视,对于文学翻
<正>中华民国三年袁大头壹圆在货币收藏界被誉为"银元之宝",是中国近千种近代银币中流传最广、影响最深的银元品种,也是近代中国币制变革中的一个重要角色,具有深厚的收藏意
期刊
工业企业成本控制水平直接关系到企业的经济效益,对企业竞争力影响较大。随着市场经济深化发展,工业企业面临着很大的生存发展压力,激烈的市场竞争要求企业必须强化成本控制,
目的分析刘丽芳教授治疗乳腺导管瘘的临床用药配伍规律。方法整理收集刘丽芳教授治疗乳腺导管瘘2011年1月至2017年6月的门诊处方,运用“中医传承辅助平台(v2.5)”软件进行数
简单介绍了MSC.MARC的前期处理功能,模型建立通常采用的两种方法;详细描述AUTOCAD与MSC.MARC的联合应用的具体步骤,为复杂岩土地基的有限元模型的建立找到一种较为简单的方法