基于用户与项目双重聚类的协同过滤算法的研究与分析

来源 :北京工业大学 | 被引量 : 6次 | 上传用户:atom1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“信息过载”使我们获取有效信息变得困难,而个性化推荐算法正是对该问题而提出的解决方案,个性化推荐算法中又以协同过滤算法发展最好、应用最为广泛。协同过滤算法通过分析用户对项目的评分信息,找出其中评分数值相似的用户(或项目),通过这些相似用户(或项目)具有的评分信息,对目标用户提供推荐。但是协同过滤中存在着由于项目维度过高、用户评分数据过于稀疏的稀疏性问题,用户兴趣是不断变化的用户兴趣变化问题,以及新用户和新项目由于信息量过少而导致的冷启动问题。上述的这些问题都将会使得协同过滤算法的推荐结果准确度变得偏低,影响整个推荐算法的性能。针对这些缺点,本文中提出了一种新的基于用户与项目的双重聚类协同过滤算法,该算法在前人研究的基础之上,对这些问题都提出了针对性的改进方案。针对数据稀疏性问题,算法中使用用户与项目的双重聚结果,利用聚类结果中同属类的其他用户或项目,对空白评分项进行填充。此种方式得到的填充结果较为可信,在缓解数据稀疏性问题上能够起到非常大的作用。针对用户的兴趣不断变化问题,算法中利用艾宾浩斯遗忘曲线为根据,利用该曲线来描述用户兴趣随时间改变的趋势。在计算用户间相似度时,对用户不同时间的评分进行加权处理,从而获取到的相似度更符合用户当前的实际情况。针对冷启动问题,算法中使用了融合用户属性的用户相似度计量方式和融合项目的项目相似度计量方式两种新型相似度计算方法,充分利用用户和项目自身所具有的的属性,对它们进行相似度分析,使得新用户与新项目也能够找到对应邻居。最后,对本文中的基于用户与项目双重聚类的协同过滤算法进行实验,验证其有效性和准确性。实验中采用的数据集为Movie Lens数据集,实验过程中分别正对算法中的改进项一一进行实验,验证其有效性,最后实验验证整体算法的有效性。最后实验表明,本文算法相比于前人提出的传统协同过滤算法有着更好的推荐结果。
其他文献
以权力为依托,从事黑社会性质犯罪,是当代农村有组织犯罪的重要类型之一。黑社会性质,组织头目往往凭借手中权力,拉帮结党,欺压百姓,严重败坏了党和政府在群众中的形象,危害农村社会
针对指挥系统性能参数的不确定性,将灰色理论与层次分析法相结合,运用灰色层次分析法,建立装甲兵指挥系统作战效能评估模型。通过实例分析影响装甲兵指挥系统作战效能的相关
本文总结了河南省名老中医陈安民教授三十余年临床经验 ,将白血病的治疗方法总结为十法 ,认为白血病的治疗以清髓解毒为治本之法 ,重在提高生存质量
一、青海省人力资本存量的现状分析1.人力资本存量的度量国际上通用的人力资本存量的计量指标主要包括质和量两方面:在量的方面,包含了人口与劳动力的数量、结构与运用水平等
全球各国对环保要求越来越高,航运业也着力采用更加绿色的方式开展经营活动。长江中下游具有天然优势,适合进行江海联运服务,但多年来该业务却进展缓慢。本文针对江海联运服
分析了2005—2012年广东雷电活动规律及雷击跳闸情况,表明各年50%概率雷电流幅值集中在26~35kA之间,雷击跳闸率受50%概率雷电流幅值的影响较地闪密度大;同塔多回输电线路雷击
<艾灸通说>是日本江户时代名医后藤省根据其父亲的讲稿编辑的一本关于艾灸疗法的专著.后藤认为"万病在于一气留滞",而艾火入经,能开郁化滞,治疗多种疾病;艾灸能调动体内元气
目的:观察电针结合超短波疗法对脊髓全横断损伤大鼠损伤部位神经生长相关蛋白(GAP-43)、神经细胞凋亡相关蛋白(Caspase-3)的影响。探讨电针结合超短波疗法对脊髓全横断损伤大
本文应用自回归条件异方差(GARCH)模型对上海股市2000年~2004年4月上证指数收益率进行建模分析;结果反映上证指数收益率具有明显的群集聚集性、波动性、尖峰厚尾的特征.并且提