隐私保护数据挖掘研究

来源 :西江文艺 | 被引量 : 0次 | 上传用户:zhongyuzhang09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】:新科技带动下,隐私保护数据挖掘相关研究工作现已成为数据挖掘的重点环节,在一定领域内取得了研究成果。现阶段,随着定位系统、物联网技术飞速发展、新型社交手段应用的出现等等,使得个人信息涉及到隐私成分逐渐增多,数据挖掘工作的实现过程很容易伴随个人隐私泄露现象,针对现阶段隐私保护的相关挖掘方法需要进行深入探讨。本文对现有挖掘方法的种类、特点、方法等进行介绍,并提出隐私数据保护挖掘今后的研究主体方向。
  【关键词】:隐私保护;数据挖掘;新技术研究
  引言:随着计算机应用技术、数据网络的普及应用,现阶段,可以通过网络上存储的大量数据进行信息提取工作,数据挖拙技术是一种现代高科技的分析手段,可以从大量数据中快速提取有用信息、相关数据重点等。从而为现代医学、商业的研究提供有利信息,该过程不可避免的会伴随着个人隐私信息泄露问题,甚至会在数据提取过程中发生敏感信息泄露,对整个系统的信息安全构成一定威胁。为了加强对隐私数据的保护,隐私保护数据挖掘工作是主要研究方向。
  一、隐私概述
  针对数据挖掘领域来讲,隐私一般分为两大类:个人隐私、共同隐私,前者主要是指个人身份信息、银行账号、相关密码等私人信息,是个人不愿意被公布、被挖掘的信息;后者是某一类人群的共有信息,共同隐私主要是表现某一类人群共有情况的信息,一般借助存储数据的挖掘可以获取共同隐私,现阶段的隐私保护挖掘工作主要研究方向是,通过对大量挖掘原始数据的前期处理,使得两大类隐私均得到一定范围内的保护。
  为了实现数据挖掘的重大意义,避免数据挖掘中丢失部分数据的现象,同时对数据挖掘过程中的个人信息识别进行回避,需要充分把握隱私数据保护的平衡点,一般通过隐私的度量进行平衡这以现象。
  二、隐私保护数据挖掘研究进展
  作为一种新型数据挖掘技术,隐私保护数据挖掘的方法、处理手段、关注点分析、技术手段上均有所改进,其主要改进手段表现如下:其一,收集信息,从大量原始数据收集信息时,采用特定处理方法,对其中隐私部分进行人为加入干扰,使其得到保护;其二,预处理,对干扰后的原始数据进行进一步处理,以便得到用于研究的重要信息;其三,挖掘阶段,需要改变原有的计算方法,如多方分布的数据挖掘过程中,需要对算法本身进行一定变动,以完成保护隐私的目的。
  隐私保护的数据挖掘已经得到国内外众多学者的一致认可,首先,在保护过程中,其关联规则的应用主要采用两种办法:其一,隐藏频繁项目,该方法实质是对大量原始数据进行了特殊处理,以防止相关隐私信息泄露;其二,采用一切手段将隐私信息的置信度降低,低至远小于挖掘信息的规定置信度下限值,使得需要被保护的信息可以隐藏,不被数据挖拙相关工具发现。
  对于聚类挖掘法将,现阶段,可以采用几何法进行原始数据处理工作,实现原始数据隐藏隐私信息的目的,然后借助等距变换法来进行隐藏数据的改进,对于聚类挖掘方法的研究,由于国内起步晚,与国外一些成熟的研究发展仍有一定的差距。
  三、隐私保护关联规则挖掘研究
  1、集中式数据
  该方法对于原始数据的保护主要借助干扰法、分布重构法进行,由于对原始数据进行了干扰,导致其支持度受到一定影响,使得算法的应用效率大幅度下降,一般需要对算法的参数进行选择,同时需要对原始数据干扰后,保证其与干扰前的数据具有一定必然的联系性。
  随着隐私保护数据方法的进行,其关联规则逐渐引起了学者的重视,成为现阶段主要研究热点,Algo系列算法陆续被提出,其中的隐藏规则也逐渐被大众所熟知。学者吴方的研究方法中,采用数据替代法进行处理,使得原始数据中信息的支持度、置信度可以降低,另一方面,最大程度的保证了原始数据的可参考价值。
  2、分布式数据
  分布式环境中,隐私数据保护工作主要侧重关联规则对全局频繁项处理的方法,在进行频繁项数据处理计算时,需要充分利用数据加密干扰的方法保证被挖掘信息受到隐私保护作用,对于分布式数据的保护过程来说,其原始信息是建立在密码学基础之上的,通过密码学处理、分析来进行数据挖掘工作。现阶段,分布式数据的隐私保护工作多数是通过安全多方法实现,安全交集、安全求并集等新型技术方法,从而实现分布式环境中隐私数据保护战略。在分布式环境中,一个合理高效的保护隐私方法评价标准如下:保证挖掘结果的正确性不受影响;合理计算通信代价;高效保证安全强度不受影响。
  四、隐私保护分类挖掘研究
  1、集中式数据
  对于集中式数据环境下,其信息保护的分类挖掘算法中一般通过随机偏移量法实现原始数据的前期处理,借助贝叶斯公式实现原始数据的重构,接下来进行集中式数据研究分析计算,在整个计算过程中,需要充分利用空间分区的方法来加快整个计算的工作效率,另一方面,通过该方法计算,其原始数据的隐私会存在一定泄露的隐患,这是该方法無法避免的一个缺点,再者,该算法中,由于对数据处理过程中需要采用迭代法,随着变量重复进行迭代计算,结果与原始值不吻合后需要重新进行核算,直至迭代结果符合规定偏差,这种方法的计算量相对较大,并且一般情况下只适合于均匀分布情况,该方法具有一定的改进空间。
  Warner作为该领域研究专家,提出采用随机相应法来解决原始数据中隐私保护问题,如我们经常遇到的调查问卷,其中涉及到的个人信息,该方法选择特定群体进行个人信息相关的调查,达到统计估算某个领域需求的信息,但是实际情况中,被调查的人群实际填写信息真实性、填写内容完整性有待考察,Warner等人针对这种现象提出了两个模型,解决了这一弊端,借助模型计算实现避免人为误差的方法。
  2、分布式数据
  分布式领域中,其隐私保护手段已经充分利用SMC协议具体条款内容要求进行了处理,现阶段,在金融财会、证券领域中已经获得了一定的成绩,通过结合隐私保护法和决策树法,实现了隐私保护,使得金融系统中,个人隐私信息保护的前提下,充分识别了不法洗钱的行为,是商业应用的典型成果案例。
  五、隐私保护聚类挖掘研究
  研究过程中,对数据间的距离计算问题作为隐私保护计算中的关键环节,需要引起足够的重视,现阶段,基于距离的隐私保护方法中以聚类挖掘法最为常见,通过该方法,可以实现精确到欧几里的距离,借助SMC协议的不可逆恢复特点,从而实现隐私保护的目的。研究进展中,Stanley R.M.Olvieria 指出可以利用原始数据的一种变换方法进行处理,该方法属于旋转变换方法,处理后,原始数据间的距离不发生变换,从而能够进行隐私保护数据聚类挖掘分析。
  实际应用过程中,每个算法的开发、研究、应用都是一个严格的过程,只有保证算法理论验证可行后,同时保证其隐私保护在合理范围内,才可以广泛应用到实际生产生活中,才能体现其实际使用价值。
  结语:隐私保护数据挖掘技术应用中,为了加大隐私保护程度,部分算法是以牺牲计算效率实现提高隐私保护度的,各种方法具有一定的优缺点,为了提高隐私保护,必须加大相关方面的研究,随着社会信息数据化发展的加速进行,隐私问题引起极大重视,表明隐私保护挖掘技术的研究具有相当大的重要价值。
  参考文献:
  [1]王爱平,王占凤,陶嗣干,等.数据挖掘中常用关联规则挖掘算法[J].计算机技术与发展,2010, 20(4):105- 108.
  [2]刘英华,杨炳儒,马楠,等.分布式隐私保护数据挖掘研究[J].计算机应用研究,2011,28(10) : 3606-3610.
  [3]KANTARCIOGLU M, CLIFTON C.Privacy-preserving distributed mining of association rules on horizontally partitioned data[J].IEEE Trans on Knowledge and Data Engineering,2004,16(9) : 1026-1037.
其他文献
【摘要】:色彩的合理运用和完美搭配在包装设计中起着举足轻重的作用,不同的色彩改变线条和布局或创造格调,营造不同的氛围。因此设计师应该利用色彩对包装设计的包装设计感,分割感,环境氛围,视觉效果以及对人的生理和心理的影响合理搭配色彩,改变包装设计的质感,创造出优秀的包装设计作品。  【关键词】:色彩;包装设计;搭配  色彩作为包装设计中的点睛之笔,它自身美好的感官本质成为一道靓丽的风景,既有审美作用,
期刊
【摘要】:幼儿班级经营一直是困扰幼儿教师的重要课题之一,本文就教师对于教育的理念、课程的活动安排、建立班级常规、环境规划、经营亲师关系等五个方面对班级的经营与管理进行阐述。  【关键词】:班级经营;幼儿教师;班级管理  无论幼儿园教师的年资深浅,教学经历丰富与否,带班班级特性等,班级经营问题一直为幼儿园教师之困扰问题,对教师工作具有很大的挑战,从专业的幼教观点而言,幼教老师不仅仅是教育者,同样也是
期刊
【摘要】:在经济快速发展的时代,人们的生活水平日益提高,人们由对物质的单纯追求转向了多元化的精神追求,在这样的社会背景下,旅游业就成为了能够同时满足人们日益增长的物质和文化需要的“朝阳产业”。导游服务在整个旅游业中处于十分重要的位置,其质量是旅游业实现可持续发展的基础与核心。本文根据目前导游服务的整个行业形势主要阐述了我国目前导游服务中存在的主要问题,并根据导游服务业的发展趋势提出了相应的解决对策
期刊
【摘要】:進入新世纪以来,江苏省旅游业保持着良好的发展势头,旅游业在全省GDP比重越来越高。在东部沿海经济带经济发展的带动下,江苏旅游业也保持着高速发展态势。本报告在分析江苏省旅游业人才发展现状与存在的问题,对江苏省旅游业下步发展需要解决的几个问题一一进行了有意义的探讨,并提出解决对策。  【关键词】:旅游业;人才发展;对策  1江苏省旅游业人才发展现状及存在的问题分析  在旅游业人才发展方面,江
期刊
【摘要】:本文以海尔的发展为例,阐述了品牌设计对于企业发展的重要作用。正确的品牌运作经营方式,注重长期的积累和不断的修正,把品牌设计融合于销售、服务中,以此提高企业的形象,对中国企业的发展有着重要的意义。对于中国众多中小企业来说,海尔品牌发展是个良好的启示。  【关键词】:品牌;设计;标志;质量;服务  近年的世界品牌500强中,中国内地品牌有31个入选,海尔的品牌排名上升了90名,成功跻身世界百
期刊
【摘要】:21世紀,企业的竞争归根结底就是人才的竞争,要想使我国旅游业立于不败之地,就必须提升我国旅游业人力资源管理。目前我国旅游业在人才招聘选拔录用、员工培训两方面存在突出问题。为对这些问题进行重点研究分析,提出具有针对性的对策。  【关键词】:旅游业;人力资源管理;员工培训  在中国经济发展中扮演着举足轻重的角色的中国旅游业,对人力资源管理中人才选拔录用、员工培训的进行还没有足够的重视。也因此
期刊
【摘要】:根据对冠县现存的227名反革命分子的档案资料统计分析,出身统计分析,土匪13人,特务2人,封建恶霸地主10人,伪杂军24人,日伪皇协军6人,会道门头子88人。另有商人投机倒把、杀人等4人,富农做汉奸等5人,学生30人多为国民党军官、汉奸等。其他如倒卖公粮、历史反革命等被划作反革命分子。从整体上看,冠县的反革命分子中,反动会道门头子、土匪恶霸占主要部分。旧军阀军官和士兵、封建地主,日伪政权
期刊
【摘要】:绿色建筑价值取向的构建应遵循四大基本原则,分别为"生态性"原则、"和谐性"原则、"发展性"原则、"继承性"原则。  【关键词】:生态性;和谐性;发展性;继承性  1."生态性"原则  生态是指生物与生物之间及生物与環境之间的相互关系与存在状态。所谓"生态性"原则,是指建构绿色建筑价值取向要W当代生态科学为前提,所提出的价值取向必须体现出尊重自然、尊重生态规律以及维护我国及全球生态系统动态
期刊
【摘要】:大众健美操动作简单易学,容易推广,运动种类广泛,可选择性强,适宜各类人群。通过大力推广大众健美操,来实现全民健身,通过健美操现在的发展状况来推广健美操,为推动我国全民健身打下基础。近几年来,一个全新的,追求健康、健美,完善自我的大众运动项目正蓬勃兴起,风靡全球。它是横跨了体育、文艺、教育三大领域,融合音乐、舞蹈、体育于一体的新兴的运动项目。它不仅对人们的健康有一定的作用,同时还能增进人与
期刊
【摘要】:随着我国社会经济的发展,“需求侧改革”已经不能满足社会发展的要求。所以,我们在进行需求侧改革的同时,加大调整供给侧结构性改革。供给侧改革是中国在目前的形势下,寻求经济增长的必然选择,是引领中国经济持续健康发展的关键。促进供给方面的改革,不仅影响中国的宏观经济发展,而且影响到社会各个方面。对于钢铁行业而言,供应方面的结构性改革“去产能、去库存、去杠杆、降成本、补短板”的相关政策,既是新的挑
期刊