论文部分内容阅读
近年来,协同过滤算法在推荐领域受到了广泛的关注及应用。传统协同过滤算法利用用户评分进行推荐,然而随着用户和商品数量的不断增加,评分数据的稀疏问题成为了制约传统协同过滤算法推荐效果的重要因素。现有的协同过滤算法中,将评论挖掘与协同过滤相融合的方法是缓解该问题的重要途径之一,其中使用主题模型进行评论挖掘的协同过滤算法由于能够发挥主题模型的数理统计特性和灵活的拓展性等优势而逐渐备受关注。但现有的这类算法没有充分考虑到用户评论的短文本特性与情感特性,利用主题模型得到的主题概率分布的准确性难以得到保证,成为了制约其推荐效果的重要因素。对评分矩阵进行预填充的方法也是现有的协同过滤算法中缓解数据稀疏问题的重要途径之一,但现有的算法在填充方法的合理性、适用性、准确性等方面均存在着不同程度的局限,难以有效提升推荐质量。为了缓解数据稀疏问题对现有的协同过滤算法推荐效果的影响,本文从评论挖掘和评分矩阵填充两个方面出发,提出一种基于用户评论和评分的协同过滤算法。首先,针对现有的协同过滤算法利用主题模型进行评论挖掘的局限性,提出在协同过滤算法中使用主题情感混合模型进行评论挖掘的方法,并利用评论挖掘获取到的用户情感-主题分布对现有的协同过滤算法的相似度计算方法进行了改进,有利于获取更加精确的相似度,提升推荐质量。其次,针对现有的协同过滤算法在评分矩阵填充方面的局限性,提出一种利用用户情感-主题分布与用户交互数据对评分矩阵进行填充的方法。其中用户交互数据是近几年随着电子商务网站的发展而诞生的新型数据,能够从一定程度上反映用户群体的意见,是非常有价值的数据资源。最后,本文根据算法的数据需求使用Python语言进行爬虫开发并爬取了京东网站上的商品数据,通过实验确定了相关参数的配置,并将本文提出的算法与现有的几种算法进行对比分析,实验证明本文算法可以有效提升推荐质量。本文的研究内容在现有研究的基础上进一步充实了个性化推荐的理论,为协同过滤推荐算法的研究提供了理论支持与科学依据。