统计视角下面向数据稀疏问题的协同过滤推荐算法研究

来源 :重庆工商大学 | 被引量 : 0次 | 上传用户:wyzwayjx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及以及电子商务的飞速发展,信息资源呈爆发式增长,用户在海量资源中快速而准确得找到自己喜欢的信息或商品变得越来越困难。为了解决这个问题,便产生了推荐系统。推荐算法一直是推荐系统的核心技术。目前,协同过滤推荐算法是众多推荐算法中应用最成功且最广泛的推荐技术。它主要根据用户留在网上的评分进行推荐。然而在实际应用中,由于用户数据和项目数据规模相当庞大,且用户对自己接触过的项目评分数量又非常有限,从而导致了严重的数据稀疏性问题,该问题是导致传统的协同过滤推荐算法推荐精度较差的主要原因之一。本文试图站在统计学的角度,针对数据稀疏性问题对协同过滤推荐算法进行研究。实现了基于描述性统计的简单推荐,并探究了将统计量填充、聚类分析、矩阵分解等方法应用到协同推荐算法中的效果。在详细分析了数据稀疏性问题的起因以及对协同推荐的影响途径基础上,本文提出了采用统计量填充的方法缓解数据稀疏性问题,进而用K-Means聚类方法对用户进行聚类,根据轮廓系数确定用户类别数,对每类用户的缺失评分使用同类别的评分统计量作为固定值进行填充。除了固定值填充缺失评分外,本文还采用奇异值分解(SVD)降维技术实现评分预测,利用预测评分对原始矩阵进行填充,形成新的用户—项目评分矩阵,再进行协同推荐。最后从推荐过程修正的角度出发,对传统的用户间相似度计算采用加权的方式进行改进,提出了基于用户偏好相似度与用户评分相似度进行加权计算用户间相似度的方法。采用MovieLens数据集对上述方法进行实验,通过平均绝对偏差(MAE)比较不同方法对推荐算法的改进效果,算法过程主要采用EXCEL,R语言辅助编程实现。实验证明,本文提出的方法均能在一定程度上缓解数据稀疏问题,从而提高推荐质量。统计量填充、聚类、相似度计算等都属于统计学中的基础方法,考虑将统计学方法应用于推荐领域,不应该只注重于繁杂的模型,将基础的统计方法加入到推荐算法的研究中来,也能够有效得解决推荐算法所面临的问题。在未来发展中,统计学方法将会应用于更多领域,获得更长足的发展。
其他文献
<正>社会公共安全是保障社会经济稳定发展、人民群众安居乐业的重要前提。习近平总书记2016年4月10日在《总体国家安全观干部读本》一书中作出批示,强调"国家安全是头等大事"
通过数值模拟,对内含直径为3 mm流化颗粒的二维高温流化床开展了研究。其中欧拉途径被用于描述气相运动,而对颗粒相描述则采用拉格朗日途径。采用离散单元法跟踪颗粒在不同时
目的:探讨归肾丸对环磷酰胺(CTX)化疗损伤性小鼠卵巢功能衰退的防治作用。方法:采用90mg/kg剂量一次性腹腔注射CTX建立小鼠卵巢功能衰退动物模型,将小鼠随机分为5组:正常组、
以红心鸭蛋为原料,比较了七种保鲜剂和七种涂膜剂对咸蛋的保鲜效果。将腌制成熟后的咸蛋直接或涂膜后放置于37℃恒温培养箱中进行破坏性实验,分别在第1天、第7天、第14天、第
进入21世纪以后,随着我国经济的不断发展,我国的出口技术复杂度也得到了较大幅度的提升,出口技术复杂度自提出以后也迅速成为各国学者研究跨国、跨地区的各类经济社会问题的
福建柏17个地理种源和48个家系6~7a生幼林期树高、胸径、材积生长在山区、半山区、丘陵区均有极显著差异,该差异主要受遗传因素影响.根据材积遗传增益大于优良种源或家系60%以
车辆停放是道路交通中的一项重要内容,是交通运行过程中不可分割的组成部分。长期以来,在解决小城市交通问题时,人们往往把研究的重点放在动态交通上,忽视了静态交通的发展,
培养学生的数学思维方式是中等职业学校数学的教学目标之一,其核心是培养学生的数学思维能力。培养学生的数学思维能力的关键在于在数学活动中让学生养成用数学思维去思考问
当代文化生产如何从历史寻找经验,武术在历史发展中为当代文化生产积累了哪些经验?为此,本研究以“文化转换”为线索,通过文化意义及社会谱系的重组,对武术文化及武术发展进
信息化是当世界经济和社会发展的大趋势,以网络技术和多媒体技术为核心的信息技术给当今社会带来了巨大而又深刻的影响,已经深入到人类社会的方方面面,已成为拓展人类能力的