论文部分内容阅读
【摘要】:新科技带动下,隐私保护数据挖掘相关研究工作现已成为数据挖掘的重点环节,在一定领域内取得了研究成果。现阶段,随着定位系统、物联网技术飞速发展、新型社交手段应用的出现等等,使得个人信息涉及到隐私成分逐渐增多,数据挖掘工作的实现过程很容易伴随个人隐私泄露现象,针对现阶段隐私保护的相关挖掘方法需要进行深入探讨。本文对现有挖掘方法的种类、特点、方法等进行介绍,并提出隐私数据保护挖掘今后的研究主体方向。
【关键词】:隐私保护;数据挖掘;新技术研究
引言:随着计算机应用技术、数据网络的普及应用,现阶段,可以通过网络上存储的大量数据进行信息提取工作,数据挖拙技术是一种现代高科技的分析手段,可以从大量数据中快速提取有用信息、相关数据重点等。从而为现代医学、商业的研究提供有利信息,该过程不可避免的会伴随着个人隐私信息泄露问题,甚至会在数据提取过程中发生敏感信息泄露,对整个系统的信息安全构成一定威胁。为了加强对隐私数据的保护,隐私保护数据挖掘工作是主要研究方向。
一、隐私概述
针对数据挖掘领域来讲,隐私一般分为两大类:个人隐私、共同隐私,前者主要是指个人身份信息、银行账号、相关密码等私人信息,是个人不愿意被公布、被挖掘的信息;后者是某一类人群的共有信息,共同隐私主要是表现某一类人群共有情况的信息,一般借助存储数据的挖掘可以获取共同隐私,现阶段的隐私保护挖掘工作主要研究方向是,通过对大量挖掘原始数据的前期处理,使得两大类隐私均得到一定范围内的保护。
为了实现数据挖掘的重大意义,避免数据挖掘中丢失部分数据的现象,同时对数据挖掘过程中的个人信息识别进行回避,需要充分把握隱私数据保护的平衡点,一般通过隐私的度量进行平衡这以现象。
二、隐私保护数据挖掘研究进展
作为一种新型数据挖掘技术,隐私保护数据挖掘的方法、处理手段、关注点分析、技术手段上均有所改进,其主要改进手段表现如下:其一,收集信息,从大量原始数据收集信息时,采用特定处理方法,对其中隐私部分进行人为加入干扰,使其得到保护;其二,预处理,对干扰后的原始数据进行进一步处理,以便得到用于研究的重要信息;其三,挖掘阶段,需要改变原有的计算方法,如多方分布的数据挖掘过程中,需要对算法本身进行一定变动,以完成保护隐私的目的。
隐私保护的数据挖掘已经得到国内外众多学者的一致认可,首先,在保护过程中,其关联规则的应用主要采用两种办法:其一,隐藏频繁项目,该方法实质是对大量原始数据进行了特殊处理,以防止相关隐私信息泄露;其二,采用一切手段将隐私信息的置信度降低,低至远小于挖掘信息的规定置信度下限值,使得需要被保护的信息可以隐藏,不被数据挖拙相关工具发现。
对于聚类挖掘法将,现阶段,可以采用几何法进行原始数据处理工作,实现原始数据隐藏隐私信息的目的,然后借助等距变换法来进行隐藏数据的改进,对于聚类挖掘方法的研究,由于国内起步晚,与国外一些成熟的研究发展仍有一定的差距。
三、隐私保护关联规则挖掘研究
1、集中式数据
该方法对于原始数据的保护主要借助干扰法、分布重构法进行,由于对原始数据进行了干扰,导致其支持度受到一定影响,使得算法的应用效率大幅度下降,一般需要对算法的参数进行选择,同时需要对原始数据干扰后,保证其与干扰前的数据具有一定必然的联系性。
随着隐私保护数据方法的进行,其关联规则逐渐引起了学者的重视,成为现阶段主要研究热点,Algo系列算法陆续被提出,其中的隐藏规则也逐渐被大众所熟知。学者吴方的研究方法中,采用数据替代法进行处理,使得原始数据中信息的支持度、置信度可以降低,另一方面,最大程度的保证了原始数据的可参考价值。
2、分布式数据
分布式环境中,隐私数据保护工作主要侧重关联规则对全局频繁项处理的方法,在进行频繁项数据处理计算时,需要充分利用数据加密干扰的方法保证被挖掘信息受到隐私保护作用,对于分布式数据的保护过程来说,其原始信息是建立在密码学基础之上的,通过密码学处理、分析来进行数据挖掘工作。现阶段,分布式数据的隐私保护工作多数是通过安全多方法实现,安全交集、安全求并集等新型技术方法,从而实现分布式环境中隐私数据保护战略。在分布式环境中,一个合理高效的保护隐私方法评价标准如下:保证挖掘结果的正确性不受影响;合理计算通信代价;高效保证安全强度不受影响。
四、隐私保护分类挖掘研究
1、集中式数据
对于集中式数据环境下,其信息保护的分类挖掘算法中一般通过随机偏移量法实现原始数据的前期处理,借助贝叶斯公式实现原始数据的重构,接下来进行集中式数据研究分析计算,在整个计算过程中,需要充分利用空间分区的方法来加快整个计算的工作效率,另一方面,通过该方法计算,其原始数据的隐私会存在一定泄露的隐患,这是该方法無法避免的一个缺点,再者,该算法中,由于对数据处理过程中需要采用迭代法,随着变量重复进行迭代计算,结果与原始值不吻合后需要重新进行核算,直至迭代结果符合规定偏差,这种方法的计算量相对较大,并且一般情况下只适合于均匀分布情况,该方法具有一定的改进空间。
Warner作为该领域研究专家,提出采用随机相应法来解决原始数据中隐私保护问题,如我们经常遇到的调查问卷,其中涉及到的个人信息,该方法选择特定群体进行个人信息相关的调查,达到统计估算某个领域需求的信息,但是实际情况中,被调查的人群实际填写信息真实性、填写内容完整性有待考察,Warner等人针对这种现象提出了两个模型,解决了这一弊端,借助模型计算实现避免人为误差的方法。
2、分布式数据
分布式领域中,其隐私保护手段已经充分利用SMC协议具体条款内容要求进行了处理,现阶段,在金融财会、证券领域中已经获得了一定的成绩,通过结合隐私保护法和决策树法,实现了隐私保护,使得金融系统中,个人隐私信息保护的前提下,充分识别了不法洗钱的行为,是商业应用的典型成果案例。
五、隐私保护聚类挖掘研究
研究过程中,对数据间的距离计算问题作为隐私保护计算中的关键环节,需要引起足够的重视,现阶段,基于距离的隐私保护方法中以聚类挖掘法最为常见,通过该方法,可以实现精确到欧几里的距离,借助SMC协议的不可逆恢复特点,从而实现隐私保护的目的。研究进展中,Stanley R.M.Olvieria 指出可以利用原始数据的一种变换方法进行处理,该方法属于旋转变换方法,处理后,原始数据间的距离不发生变换,从而能够进行隐私保护数据聚类挖掘分析。
实际应用过程中,每个算法的开发、研究、应用都是一个严格的过程,只有保证算法理论验证可行后,同时保证其隐私保护在合理范围内,才可以广泛应用到实际生产生活中,才能体现其实际使用价值。
结语:隐私保护数据挖掘技术应用中,为了加大隐私保护程度,部分算法是以牺牲计算效率实现提高隐私保护度的,各种方法具有一定的优缺点,为了提高隐私保护,必须加大相关方面的研究,随着社会信息数据化发展的加速进行,隐私问题引起极大重视,表明隐私保护挖掘技术的研究具有相当大的重要价值。
参考文献:
[1]王爱平,王占凤,陶嗣干,等.数据挖掘中常用关联规则挖掘算法[J].计算机技术与发展,2010, 20(4):105- 108.
[2]刘英华,杨炳儒,马楠,等.分布式隐私保护数据挖掘研究[J].计算机应用研究,2011,28(10) : 3606-3610.
[3]KANTARCIOGLU M, CLIFTON C.Privacy-preserving distributed mining of association rules on horizontally partitioned data[J].IEEE Trans on Knowledge and Data Engineering,2004,16(9) : 1026-1037.
【关键词】:隐私保护;数据挖掘;新技术研究
引言:随着计算机应用技术、数据网络的普及应用,现阶段,可以通过网络上存储的大量数据进行信息提取工作,数据挖拙技术是一种现代高科技的分析手段,可以从大量数据中快速提取有用信息、相关数据重点等。从而为现代医学、商业的研究提供有利信息,该过程不可避免的会伴随着个人隐私信息泄露问题,甚至会在数据提取过程中发生敏感信息泄露,对整个系统的信息安全构成一定威胁。为了加强对隐私数据的保护,隐私保护数据挖掘工作是主要研究方向。
一、隐私概述
针对数据挖掘领域来讲,隐私一般分为两大类:个人隐私、共同隐私,前者主要是指个人身份信息、银行账号、相关密码等私人信息,是个人不愿意被公布、被挖掘的信息;后者是某一类人群的共有信息,共同隐私主要是表现某一类人群共有情况的信息,一般借助存储数据的挖掘可以获取共同隐私,现阶段的隐私保护挖掘工作主要研究方向是,通过对大量挖掘原始数据的前期处理,使得两大类隐私均得到一定范围内的保护。
为了实现数据挖掘的重大意义,避免数据挖掘中丢失部分数据的现象,同时对数据挖掘过程中的个人信息识别进行回避,需要充分把握隱私数据保护的平衡点,一般通过隐私的度量进行平衡这以现象。
二、隐私保护数据挖掘研究进展
作为一种新型数据挖掘技术,隐私保护数据挖掘的方法、处理手段、关注点分析、技术手段上均有所改进,其主要改进手段表现如下:其一,收集信息,从大量原始数据收集信息时,采用特定处理方法,对其中隐私部分进行人为加入干扰,使其得到保护;其二,预处理,对干扰后的原始数据进行进一步处理,以便得到用于研究的重要信息;其三,挖掘阶段,需要改变原有的计算方法,如多方分布的数据挖掘过程中,需要对算法本身进行一定变动,以完成保护隐私的目的。
隐私保护的数据挖掘已经得到国内外众多学者的一致认可,首先,在保护过程中,其关联规则的应用主要采用两种办法:其一,隐藏频繁项目,该方法实质是对大量原始数据进行了特殊处理,以防止相关隐私信息泄露;其二,采用一切手段将隐私信息的置信度降低,低至远小于挖掘信息的规定置信度下限值,使得需要被保护的信息可以隐藏,不被数据挖拙相关工具发现。
对于聚类挖掘法将,现阶段,可以采用几何法进行原始数据处理工作,实现原始数据隐藏隐私信息的目的,然后借助等距变换法来进行隐藏数据的改进,对于聚类挖掘方法的研究,由于国内起步晚,与国外一些成熟的研究发展仍有一定的差距。
三、隐私保护关联规则挖掘研究
1、集中式数据
该方法对于原始数据的保护主要借助干扰法、分布重构法进行,由于对原始数据进行了干扰,导致其支持度受到一定影响,使得算法的应用效率大幅度下降,一般需要对算法的参数进行选择,同时需要对原始数据干扰后,保证其与干扰前的数据具有一定必然的联系性。
随着隐私保护数据方法的进行,其关联规则逐渐引起了学者的重视,成为现阶段主要研究热点,Algo系列算法陆续被提出,其中的隐藏规则也逐渐被大众所熟知。学者吴方的研究方法中,采用数据替代法进行处理,使得原始数据中信息的支持度、置信度可以降低,另一方面,最大程度的保证了原始数据的可参考价值。
2、分布式数据
分布式环境中,隐私数据保护工作主要侧重关联规则对全局频繁项处理的方法,在进行频繁项数据处理计算时,需要充分利用数据加密干扰的方法保证被挖掘信息受到隐私保护作用,对于分布式数据的保护过程来说,其原始信息是建立在密码学基础之上的,通过密码学处理、分析来进行数据挖掘工作。现阶段,分布式数据的隐私保护工作多数是通过安全多方法实现,安全交集、安全求并集等新型技术方法,从而实现分布式环境中隐私数据保护战略。在分布式环境中,一个合理高效的保护隐私方法评价标准如下:保证挖掘结果的正确性不受影响;合理计算通信代价;高效保证安全强度不受影响。
四、隐私保护分类挖掘研究
1、集中式数据
对于集中式数据环境下,其信息保护的分类挖掘算法中一般通过随机偏移量法实现原始数据的前期处理,借助贝叶斯公式实现原始数据的重构,接下来进行集中式数据研究分析计算,在整个计算过程中,需要充分利用空间分区的方法来加快整个计算的工作效率,另一方面,通过该方法计算,其原始数据的隐私会存在一定泄露的隐患,这是该方法無法避免的一个缺点,再者,该算法中,由于对数据处理过程中需要采用迭代法,随着变量重复进行迭代计算,结果与原始值不吻合后需要重新进行核算,直至迭代结果符合规定偏差,这种方法的计算量相对较大,并且一般情况下只适合于均匀分布情况,该方法具有一定的改进空间。
Warner作为该领域研究专家,提出采用随机相应法来解决原始数据中隐私保护问题,如我们经常遇到的调查问卷,其中涉及到的个人信息,该方法选择特定群体进行个人信息相关的调查,达到统计估算某个领域需求的信息,但是实际情况中,被调查的人群实际填写信息真实性、填写内容完整性有待考察,Warner等人针对这种现象提出了两个模型,解决了这一弊端,借助模型计算实现避免人为误差的方法。
2、分布式数据
分布式领域中,其隐私保护手段已经充分利用SMC协议具体条款内容要求进行了处理,现阶段,在金融财会、证券领域中已经获得了一定的成绩,通过结合隐私保护法和决策树法,实现了隐私保护,使得金融系统中,个人隐私信息保护的前提下,充分识别了不法洗钱的行为,是商业应用的典型成果案例。
五、隐私保护聚类挖掘研究
研究过程中,对数据间的距离计算问题作为隐私保护计算中的关键环节,需要引起足够的重视,现阶段,基于距离的隐私保护方法中以聚类挖掘法最为常见,通过该方法,可以实现精确到欧几里的距离,借助SMC协议的不可逆恢复特点,从而实现隐私保护的目的。研究进展中,Stanley R.M.Olvieria 指出可以利用原始数据的一种变换方法进行处理,该方法属于旋转变换方法,处理后,原始数据间的距离不发生变换,从而能够进行隐私保护数据聚类挖掘分析。
实际应用过程中,每个算法的开发、研究、应用都是一个严格的过程,只有保证算法理论验证可行后,同时保证其隐私保护在合理范围内,才可以广泛应用到实际生产生活中,才能体现其实际使用价值。
结语:隐私保护数据挖掘技术应用中,为了加大隐私保护程度,部分算法是以牺牲计算效率实现提高隐私保护度的,各种方法具有一定的优缺点,为了提高隐私保护,必须加大相关方面的研究,随着社会信息数据化发展的加速进行,隐私问题引起极大重视,表明隐私保护挖掘技术的研究具有相当大的重要价值。
参考文献:
[1]王爱平,王占凤,陶嗣干,等.数据挖掘中常用关联规则挖掘算法[J].计算机技术与发展,2010, 20(4):105- 108.
[2]刘英华,杨炳儒,马楠,等.分布式隐私保护数据挖掘研究[J].计算机应用研究,2011,28(10) : 3606-3610.
[3]KANTARCIOGLU M, CLIFTON C.Privacy-preserving distributed mining of association rules on horizontally partitioned data[J].IEEE Trans on Knowledge and Data Engineering,2004,16(9) : 1026-1037.