隐私保护层次聚类方法设计及其在移动通信客户行为分析中的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:tiny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘技术的日益发展,数据隐私和信息安全逐渐引起人们的关注。如何保护私有信息或敏感信息在挖掘过程中不被泄露,已经成为数据挖掘研究中的一个很有意义的研究课题。 聚类分析是一种重要的人类行为,他广泛应用在模式识别,数据分析,图像处理以及市场研究中。通过聚类,人能够识别密集的和稀疏的区域,进而发现全局的分布模式,以及数据属性之间的有趣的相互关系。 本文主要关注于隐私保护聚类挖掘的研究,提出了一种新的隐私保护数据挖掘算法PPH(Priracy Preserving Hierarchy),在PPH的基础上设计并实现了一个隐私保护层次聚类子系统,并且将该系统应用于移动通信客户行为分析中,为企业决策提供依据。 PPH用于在数据水平分布于多个站点、不能访问原始数据的情况下,多个站点协同计算基于全局数据的聚类结果,它达到的结果是多个站点可以进行合作,使得挖掘出的有用结果是基于所有站点数据的并集的,并且在挖掘的过程中,每个站点的数据信息都不会被其他站点窃取到,可以有效保护每个站点的数据安全。它借鉴了层次聚类算法BIRCH的思想,在聚类的划分中采用聚类特征(CF)和聚类特征树(CF树)的概念。PPH的工作分成两个阶段:阶段一中,每个参与协同计算的站点都对自己的数据进行一个简单聚类,为下一步的工作做必要的准备,这一步中每个站点会根据自己的数据建立一棵本地的CF树;阶段二中,每个站点都保持一棵全局的CF树,然后各个站点依次向这棵树中插入自己的多条数据及相应统计信息。若站点A插入数据,则它会向其他站点发布自己插入了某些数据以及这些数据的统计信息和插入路径等,供其他站点更新自己的全局树。算法重复这个过程,直到所有数据全部被插入到树中,此时聚类过程结束,每个站点全局树中的叶子节点即自己单独站点数据基于全局的一个简单聚类。由于算法对数据集合只进行两遍扫描,对对象数目有很好的线性伸缩性。文中对采用该算法得到的聚类结果进行了分析。分析结果显示,PPH在保密性、规则效能、算法复杂性和扩展性方面都有很不错的表现。 隐私保护层次聚类子系统是以PPH算法为核心设计的一个图形化系统,它是构成北京大学数据库教研室研发的数据挖掘与分析系统BusinessMiner的一个重要部分。隐私保护层次聚类子系统封装了一个用户界面,使得可以在图形中对算法各项参数进行设置,并且以三维图表的形式对聚类结果进行了展示,使得用户可以对聚类结果有个直观的感觉。它应用于移动通信公司的客户细分功能中,使得公司对圈定的目标用户进一步划分,并针对不同客户群制定相应的营销方案,可以极大的提高客户响应度和满意度。
其他文献
特征的表达和融合是计算机视觉算法中的两个重要部分。例如,在基于骨架的人体行为识别中,如何表达三维骨架的几何关系对于行为识别效果有至关重要的影响。然而很多现有的研究都
文本倾向性分析是自然语言处理一个十分重要的问题,在信息过滤,电子商务,观点搜索,自动问答等领域具有广泛的应用场景。 本文主要考察句子一级的观点自动抽取和倾向性自动识别
博客是一种基于RSS技术的信息交互平台,目前发展极为迅速。博客作者常常就感兴趣的话题发表文章、做出评论,对感兴趣的其他作者添加为好友,这些特征行为构成了潜在的博客社区。
稀疏数据是指包含大量空值的数据,具有维度高、稀疏、模式易变等特点。稀疏数据在实际应用中的大量出现给现代的RDBMS带来了巨大的挑战。在各类海量数据管理系统中,如何设计稀
强化学习是与传统的监督学习完全不同的学习框架。在强化学习中,agent感知环境的状态并采取相应的动作,同时得到环境的奖赏反馈。agent无需假设任何有关环境的先验知识,而是通过
软件体系结构作为高层的设计蓝图,在软件系统开发的过程中,其主要角色包括:支持开发人员之间的交流、直接支持系统开发、支持软件复用等。目前存在的问题是软件体系结构设计不断
如今,软件在人们的社会生活中占据越来越重要的地位,软件的正确性也受到人们越来越多的重视。特别是随着敏捷开发、开源软件等快速迭代开发模式的出现,人们对软件的安全可信提出
随着现代软件工程和开发技术的发展,SOA技术以其灵活高效的优势赢得了普遍的支持,并已经在分布式计算方面形成了一场革命。而另一方面人们逐渐进入了Web2.0时代,AJAX技术成为Web
为了实现磁共振快速成像,一种可行的方法是减少K空间数据的采集量。然而,基于欠采样K空间数据进行磁共振图像重建的问题是一个病态的反问题。由于压缩感知理论的出现,基于稀疏性
在本体构建和应用过程中,知识表示的正确性、表达性,以及是否可被共享和复用,将直接影响到对本体的正确应用。本体评价作为把握上述问题的必要手段之一,目前已经得到越来越多的研