论文部分内容阅读
协同过滤是目前最为常用且最为成功的推荐技术之一,已被成功运用于许多在线应用中,但传统协同过滤算法中存在数据稀疏性问题,当用户评分数据稀少或缺失时,将难以做出准确的评分预测与物品推荐。近年来关于评论分析及文本挖掘的研究工作越来越受到研究人员的关注,与评分数据相比,评论文本往往包含了更加丰富且有价值的信息资源。针对传统协同过滤算法中的数据稀疏性问题,本文从用户评论文本入手,通过结合用户评分与评论的特点,提出了基于评论与评分的User-based协同过滤算法和基于评论与评分的Item-based协同过滤算法。本文主要工作如下:(1)介绍了本文的研究背景及推荐技术的发展情况,对当前主要的几种推荐算法进行了分析研究,并简单阐述了关于推荐系统的评测方法。(2)研究分析了用户评论文本的特点、组成元素,并介绍了用于文本主题挖掘的LDA模型,同时详细介绍了基于用户的协同过滤算法与基于物品的协同过滤算法。接着提出了评论主题分布、评论态度、改进的用户偏好、改进的物品特征等概念。(3)结合用户评论文本与用户评分的特点,利用传统协同过滤算法的基本思想,提出了基于评论与评分的User-based协同过滤算法以及基于评论与评分的Item-based协同过滤算法。算法利用评论文本产生评论主题分布,利用评分数据生成评论态度,结合评论主题与评论态度来建立更为准确的用户偏好模型与物品特征模型,进而进行评分预测与物品推荐。(4)在Amazon电子设备评论数据集上对本文提出的算法进行了验证,并与其它现有算法进行了对比分析。实验结果表明,相比传统的协同过滤算法和其它现有的基于评论主题分析的算法,本文提出的算法能有效提高评分预测的精度,提高推荐质量,同时在一定程度上缓解了数据稀疏性问题。