分布式环境下的数据挖掘算法的研究与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:t381598972
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展和计算机使用的日益广泛,电子化数据越来越多,人们正面临"数据丰富而知识贫乏"的问题.数据挖掘技术为解决此问题开辟了一条道路,并越来越受到人们的重视.但随着数据集规模越来越庞大,且多为分布存储,单台计算机的资源对于挖掘大规模数据集越来越无能为力,所以在分布式环境下进行数据挖掘算法的研究显得尤为重要.对分布式算法的研究主要有两个途径,一个是改造现有的串行算法,使之适应分布式并行环境;另一个则是设计全新的分布式并行算法.由于前一种方法容易进行工作衔接,而且能够充分利用已有的集中式环境下的研究成果,所以被广泛采用.我们提出了一个分布式聚类算法G-DBSCAN.G-DBSCAN算法主要是在经典的基于密度的DBSCAN算法的基础上进行改进的,并结合了空间矩形覆盖算法GMDL.在各个局部节点,G-DBSCAN算法用DBSCAN算法产生局部模型,并使用GMDL算法对局部模型进行近似处理,以减少传输到中央节点的数据量.中央节点根据局部节点提交的局部模型,使用空间分格以及我们改进的R-DBSCAN算法得到全局模型,并使用GMDL算法对模型描述进行简化.最后将全局模型发送到各个局部节点以更新局部模型.另外,利用G-DBSCAN算法,我们还开发了一个网格环境下的分布式聚类挖掘系统——GC系统,并使用GC系统对G-DBSCAN算法进行了评估.
其他文献
智能网过载控制技术是智能网实现过程中的关键技术,它对于确保智能网的稳定性,从而高效、优质地提供智能网业务起着重要的作用。SCP过载控制算法是智能网过载控制技术的核心。
网络数据流分类是目前工业界和学术界研究热点。传统的基于端口、基于DPI的分类方法在P2P业务种类剧增以及抗加密性差问题上处于明显的劣势,导致分类准确率急剧下降。因而越来
随着Internet的迅速发展,以前在企业内部网络中开通的业务也纷纷移植到Internet上。Internet构建在TCP/IP协议上,而TCP/IP协议并未提供任何安全措施,针对Internet存在的安全问题
目前,互联网的速率在飞速增长,宽带网络静悄悄地走进千家万户,人们在享受网络带来的便利性的同时,也面临着黑客入侵、网络病毒等诸多安全性问题。面对日益增长的网络安全需求和令
近年来,外存储系统技术取得了飞速的发展.以磁盘阵列、存储区域网、附网存储为代表的外存储系统占据了计算机市场很大的份额.纵观外存储系统的发展,其数据组织形式由最初的单
随着网络信息的增长和更新速度变得越来越快,人们对信息查询的准确性和时效要求越来越高。自动问答系统提供了一种使用自然语言问句形式进行信息查询的方法,使用户可以快速准确
由于IPv4地址严重缺乏,且存在IP业务的安全问题、以及QoS问题急待解决等,推行IPv6势在必行.同时,随着移动技术的发展,传统采用电路交换的无线网络,将逐步被改造为以IP分组交
随着网络技术的发展,许多以网络为基础的信息管理应用领域孕育而生并不断壮大.电子商务、电子政务、办公自动化和企业信息系统的应用成为了当今管理信息系统应用的焦点.在这
随着网络应用的日益普及,越来越多的信息和资源都通过网络发布和转播,保障计算机网络安全越来越重要也越来越具有挑战怀,现在的各种静态安全技术,入防火墙、数据加密技术都比
随着互联网技术的发展,特别是IPv6,网络的规模正在迅速扩大,IP网络已经渗透到社会各个领域,尤其在教育、商业、金融等重要部门.基于TCP/IP的Internet(互联网)已把人们带入前