面向协同过滤推荐的混合隐私保护技术和算法研究

来源 :广西师范大学 | 被引量 : 4次 | 上传用户:xiaoshuishe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络经济时代的到来,推荐系统已经渐渐深入到人们的日常生活中。急剧增长的网络数据,使得用户(消费者)往往难以发现最需要或者最适合自己的信息,拥有一个可靠的推荐系统意味着能提供更方便更吸引用户的服务,而协同过滤是当前推荐系统中一种主要的推荐算法。协同过滤通过用户对项目以往的评价来判断两个用户之间的相似度,然后根据目标用户的相似用户的评价记录来产生推荐。这种推荐方法被广泛的应用于当前的个性化推荐服务中,但是由于推荐系统需要获得用户个人信息以及相关行为,因此推荐系统在应用的过程中存在泄露个人敏感信息的可能。为了能在使用和共享数据的同时保护个人隐私信息,目前采用的隐私保护技术主要包括k-匿名和差分隐私两种保护模型,而且已经有一些研究将k-匿名模型或者差分隐私应用到协同过滤推荐中以保护用户的个人敏感信息。就已有的研究结果来看,由于k-匿名模型的思想简单,对数据的操作不复杂,所以其在协同过滤中的应用会比较容易实现,但是实验表明由于电子商务数据中每个标签所包含的项目过多,使得数据在被泛化后的效用性难以得到保证;最新应用差分隐私到协同过滤推荐的方法的隐私性和推荐准确性都有一个很好的保证,但是一旦处于动态环境下时,根据差分隐私的序列组合性,随着数据发布次数的增多会导致每次数据发布能消耗的隐私预算相应的减少,从而使得添加的噪声难以控制。围绕协同过滤面临的隐私安全问题,本文开展研究如下:首先,我们介绍了推荐系统的研究现状,将协同过滤推荐算法作为例子和研究对象,描述了该算法的主要过程和实现这些过程的一些主要方法,并说明了协同过滤算法的主要的优缺点——其中影响推荐系统发展的最主要的一个挑战就是用户信息安全问题。其次,分析了协同过滤面临的隐私泄露问题,描述了推荐系统面临的信息泄露原理和方式,比如服务器收集、员工泄露、设备残留数据泄露和推荐泄露等,我们的研究主要针对推荐产生的隐私安全问题。对这种类型的隐私安全问题我们描述了一个包含攻击者的攻击目标、背景知识、攻击方式、隐私泄露定义等的攻击模型;此外,我们还介绍和分析了当前数据隐私保护的两种主要的匿名保护体系:k-度匿名系列和差分隐私保护体系,以及其在推荐系统中的应用和其不足之处,并从数据的效用性和隐私性等方面,分析了主要的隐私模型评价标准。再次,针对协同过滤面临的隐私问题,我们对现有算法的安全性进行了分析,给出了当前隐私问题的安全模型,并根据当前隐私问题的安全模型和实际应用中推荐系统对精度和隐私度需求,通过结合两个匿名体系—k-匿名和差分隐私,给出了一种改进的ρ-混合隐私保护推荐模型;根据该模型,设计了相应的隐私保护p-混合隐私保护算法。这种算法主要在目标用户的k近邻居的选择上加以项目评分多样性的限制,并使用拉普拉斯加噪的邻居相似度进行加权推荐。这种算法可以有效的抵御KNN攻击,并在动态发布的环境下保持良好的推荐准确性和隐私性。最后,基于提出的模型和改进的算法,结合多次发布推荐结果的实际推荐需求,实现了一个适应多次发布的隐私保护推荐系统,并在几个真实数据集上,通过对比实验验证了该隐私保护方法的有效性,在保证数据隐私保护力度的同时提高了数据的实用性。
其他文献
随着Internet技术的不断发展,企业对于信息的依赖已经到了前所未有的程度,信息化的快慢直接决定着企业的前途和命运,企业级Web应用的需求随之日益增多。为此企业级应用系统的多
微生物群体中包含着大量诠释人类健康、自然进化和生态构成等问题的重要信息,高通量测序技术使获取这些信息成为可能。通过对微生物群落的样本数据进行测序,产生了大量的宏基
随着数字化影像设备在医学领域中日益广泛的应用,医院每天都要产生大量的数字图像。如何有效地进行数字图像的管理,是实现计算机辅助诊断,达到“无纸化、无胶片化”的信息化
汽车是现代人类最重要的交通工具,是现代文明的标志。汽车的普及为人们的工作和生活带来了很多便利,但是随着社会和经济的发展,车辆越来越多,交通越来越拥挤,交通阻塞和车辆的失窃
随着社会信息化程度的发展,越来越多的场合需要对人的身份进行可靠地识别,传统的以密码方式进行身份认证的技术日益暴露出很多弊端。为确保信息安全,用人特有的生物特征作为
随着互联网技术和数字信号处理技术的飞速发展,数字媒体信息被广泛地应用到不同领域,数字媒体信息的安全问题也逐步成为不可忽视的事情。数字图像是数字媒体信息中应用最为广
作物病虫草害严重影响作物的产量和品质,针对作物病虫草害识别自动化程度不高,识别诊断不及时问题,应用计算机视觉技术对玉米生长期的叶部病害识别诊断进行研究,以常见的玉米
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对信息库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回
随着社会对嵌入式系统性能的要求不断提高,以PCI(Peripheral Component Interconnection)总线为代表的传统总线已经远远无法满足现代嵌入式系统实时性强、功能丰富、拓扑结构
以国家自然科学基金资助课题“基于医学图像的数据挖掘技术研究(60372072)”为背景,应用医学图像数据挖掘中的关键技术和算法开发了乳腺癌病变检测模块;设计开发了组件式动态