论文部分内容阅读
随着互联网在日常生活与工作的普及应用,面对眼前混杂有大量垃圾信息及无意义信息的海量数据,给我们带来了筛选出有效信息的巨大难题。为了解决信息过载问题,个性化推荐越来越被人所注重,通过对用户行为信息、网站信息内容等,利用知识发现、过滤筛选等机器学习算法,主动对垃圾信息进行过滤,猜用户喜欢什么。随着web2.0的兴盛发展以及web3.0概念的倡导和实践,用户更多地参与网站系统、信息产品的创造、传播和分享。越来越多社会化网站开始收集用户对网站内容、项目有效的显式和隐式反馈,并对其分析预处理,应用统计学、概率论、模式识别等技巧建立数学模型,并结合计算机算法的处理能力,分析人类的惯性思维及个性化行为,实现很多工具的智能化且个性化的推荐,让系统为用户主动“思考”。本文对推荐系统的概念、架构、作用从宏观上进行介绍,并主要围绕推荐系统核心算法对它进行研究与改进,并从准确率上对算法提升效果进行验证。协同过滤是推荐系统常常采用的一种有效算法,在推荐准确性、多样性与拓展性上有很好的表现。在实际系统中,用户间的独立行为是普遍联系的,所以可以利用用户“协作”的思想,去猜测用户还可能喜欢什么,得到最终的推荐结果。协同过滤算法分为基于内存与基于模型两种。其中,基于内存的算法分为基于项目与基于用户,对推荐过程具有良好的理论解释性,但它不易挖掘出用户的多兴趣特征,因此在准确率上存在局限。将潜在语义分析应用到协同过滤算法中,可以不需要利用外部知识,而是直接对评分矩阵利用数学统计模型构造潜在语义向量空间结构,能够主动发现用户(或项目间)的潜在语义关系,能够发现用户的潜在兴趣。本文首先研究了最近邻算法的两种形式:根据评分向量以及佩尔森距离公式计算相似度、梯度下降法回归学习相似度参数,并对相似度计算以及最近邻选择算法进行优化,提高推荐准确性的同时大大加快了运行速度。除了对传统最近邻算法进行改进,本文着重研究了基于潜在语义模型的协同过滤推荐,并将其与基于项目的协同过滤结合起来,进行混合推荐。第四章提出了一种新的混合推荐方式,它结合了基于高斯潜在语义分析模型和改进的基于项目的协同过滤两种算法,从用户角度和项目角度计算综合得到最终推荐预测值。第五章首先介绍应用正则SVD计算对用户评价矩阵进行分解计算,再提出了带偏差的基于特征分步梯度学习的正则化SVD分解,最后利用混合推荐的优势将knn算法与SVD算法结合起来,融合模型采用自适应的方式对不同用户进行个性化的模型动态参数选择。为了验证协同过滤算法的改进效果,利用movielens提供的数据进行实验,实验结果显示改进后的算法在推荐准确性上有了明显的提高。