论文部分内容阅读
数据挖掘是数据库研究、开发和应用最活跃的分支之一,它通过对大型数据库进行清理、集成以及选择变换等处理,获得其中隐藏的潜在有用的规则,但随之产生的就是隐私和信息安全问题,如果利用不当,将会给部门、个人隐私带来严重的威胁,如何在保持隐私的情况下仍然能够挖掘出有用的规则是近年来数据挖掘领域研究的重要内容。
作为数据挖掘隐私保护研究的一个重要组成,分布式关联规则中的隐私保护算法研究一直是一个具有挑战性的课题,它在金融、市场营销等方面具有十分重要的应用价值。本文在分析国内外隐私保护方法研究成果的基础上,对其进行了深入的研究。根据保护对象的不同,本文内容分为实现原始数据保护的分布式关联规则挖掘算法及规则保护的分布式关联规则挖掘算法研究,相关算法在保护隐私的同时,尽量保证规则挖掘的精度。
(1)在数据水平分布条件下,针对现有的隐私保护分布式关联规则挖掘算法需要多次扫描数据库的缺点,提出一种只需要两次扫描数据库的基于分布式FP-树的隐私保护挖掘算法,可以有效地降低通信量,还能在保证准确度的同时有效地保护原始数据。
(2)在数据垂直分布条件下,论证了关联规则挖掘的关键在于项集支持度的计算,从而提出一种新颖的求项集支持度的协议,该协议可以安全地求出项集的支持度而不会泄露各个站点的私有信息,同时该算法又是一个普遍适用的适合多个站点的算法。
(3)基于两遍扫描数据库隐藏规则的框架,提出一种适合于分布式情况下隐藏规则的数据清理算法IGA RC,算法不仅考虑敏感规则的支持度还考虑了规则的置信度。