论文部分内容阅读
在当前大数据时代,互联网产业高速发展,数据信息迅速增长,信息过载问题愈发严重。在海量信息中,准确快速的获取用户所需信息,变得愈发困难。为解决这一困境,个性化推荐系统应运而生。协同过滤推荐算法作为个性化推荐算法的主流技术之一,具有推荐效果好,算法简单等特点。通过利用用户历史行为数据信息,对用户所需项目进行预测,提供个性化推荐。然而在实际应用中,协同过滤推荐算法出现了可扩展性差,评分数据稀疏以及用户隐私泄露等问题,导致最终推荐结果无法满足用户的真实需求。本文为解决协同过滤推荐算法中存在的问题,引入聚类分析技术和差分隐私技术,提高推荐精度,同时保障用户的隐私安全,主要研究工作有以下几点:(1)针对协同过滤推荐算法需要处理数据信息的增多,导致算法的可扩展性差问题,在协同过滤推荐算法的基础上引入聚类分析技术,提出基于差分隐私聚类技术的个性化协同过滤推荐算法。该算法与其它基于聚类分析协同过滤推荐算法的不同之处是:在对用户数据进行K-means聚类处理阶段,可以保证系统内参与推荐的用户隐私不被泄露,保障数据信息安全,并提高算法推荐性能。(2)针对用户数据进行K-means聚类算法产生的隐私泄露问题,分析现有隐私预算ε分配方法,设计基于聚类效果自适应分配隐私预算的差分隐私K-means算法(Adaptive Differential Privacy K-means,ADPK-means)。该算法评估每一次迭代产生聚类集合的效果,对不同的聚类集合添加不同的扰动噪声,由此减少多余噪声添加,并针对随机选取中心点导致聚类效果变差的问题,采用样本点平均差异度的方式选取初始中心点,保证用户隐私安全,并提高结果可用性。(3)针对协同过滤推荐算法利用用户私人信息进行推荐,产生的隐私泄露问题,设计基于聚类结果的差分隐私推荐算法。通过聚类分析技术搜寻相似用户群体,对产生的相似用户群体应用差分隐私保护,缩小添加噪声范围,有效解决直接采用差分隐私技术导致推荐性能不佳的问题。将ADPK-means算法与协同过滤算法结合,以用户属性数据为基础,对用户进行差分隐私聚类操作,保障聚类过程中用户的隐私安全。并对产生的聚类集合利用指数机制输出邻近用户集合,利用用户项目属性偏好特征和用户项目评分特征,对指数机制效用函数进行设计,提高推荐结果的准确性。对本文提出的算法进行理论上的安全性分析和实验结果分析,验证所提方法均是可行且有效的。