分布式环境下数据挖掘分类算法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:eaglesword
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类规则的挖掘是数据挖掘研究领域的一个重要问题,而传统的数据挖掘算法和模式主要采用集中式,这不仅要求有高速的数据通信网络,还会导致响应时间延长以及使数据的私有性和安全性遭受破坏,不适合分布式环境下的数据模式挖掘。因此本文主要从分布式的角度出发,针对分类知识的理论和方法进行了深入研究,提出了有效的挖掘算法。 本文首先提出了一种采用纵向划分数据集和同步更新哈希表技术来建立异构分布式环境下分类决策树的算法DSPRINT,以及采用区间分割和区间筛选技术的DSPRINT改进算法。DSPRINT算法采用属性直方图的数据结构,将类别列表合并到每个属性列表当中,减少了需要驻留于内存的数据量。DSPRINT算法还采用纵向划分数据集和同步更新哈希表的策略,根据最小gini值选出可以用来更新的哈希表项,对其相应条目进行修改,利用哈希表来记录并控制各分站点的节点分裂情况,具有较高的准确率。针对DSPRINT算法处理连续值属性效率较低的缺点,还将DSPRINT算法进行了改进,采用区间评估和区间筛选的思想,通过取样将连续值属性的值域划分成多个区间,估计在各个区间上有无找到最佳分割点的可能,最后在可能找到最佳分割点的区间中逐一搜索,有效地提高了算法的工作效率。对比实验表明,当选取合适的区间数时改进算法和DSPRINT算法在分类准确率上相同;另外,当分站点数目逐渐增多时,两种算法均可以获得较高、稳定的准确率,且改进算法在处理连续值属性时的计算效率要比DSPRINT算法更高。 另外,针对分布式环境中满足单调性约束条件的分类问题,本文将R. Potharst提出的建立单调性决策树的思想在分布式环境中进行拓展,对DSPRINT算法进行补充,增加了修改规则Update,将生成的非单调性决策树修正为单调性。使无需随时增加各个分站点数据集数目,仅插入少量数据项,通过分裂一些叶节点,增加少量分枝即可实现决策树单调化。 本文进一步针对常规分布式数据挖掘系统存在的数据分块、结果集成、安全性等问题,提出将移动代理技术和数据挖掘技术相结合,
其他文献
本文所阐述的有限信息采样理论,是一种能够在超宽带系统中降低采样率的方法。该理论实际上是对Nyquist采样定理的一种扩展,它通过一种预操作,使得一些类型的非带宽有限信号,能够
介绍了一种基于可编程片上系统(System On Programmable Chip,以下简称SOPC)技术的手持式数字存储示波表的硬件实现方案。在对示波器工作原理和系统结构分析后,通过在FPGA 中植入嵌入式系统处理器作为核心控制电路,利用FPGA中的可编程逻辑资源和IP软核来构成该嵌入式系统处理器的接口功能模块,借助于Avalon 总线,实现对外围模拟通道、高速A/D 转换器、RAM、LCD显
J2EE是当前流行的一种先进的网络分布式、多层、企业级应用程序的开发平台规范,是当今企业运算的事实标准。在运用J2EE创建应用程序的时候,一个重要的问题就是良好的架构,设
该文一方面在学习和研究结合参数估计和运动补偿的距离多普勒算法的基础上,针对机载大斜视合成孔径雷达(SAR)由速度不平稳带来的问题,分别对其进行一次和二次相位补偿,并且在
随着信息化时代的到来,越来越多的高清分辨率甚至超清分辨率的视频出现在人们的生活中,实时对这类视频进行压缩并传输的需求也越来越多。2013年1月JCT-VC发布了最新的视频压
铁路综合数字移动通信系统GSM-R是铁路信息化的平台和基础,GSM-R网络与其他网络的互联互通是未来在全路部署GSM-R网络的重要环节。本文基于GSM-R网络与固定用户接入系统(FAS)
  本文在对数字水印技术的基本理论和小波理论研究基础上,着重分析了小波域数字水印技术,提出了几种新的水印算法。主要内容有以下两个方面:  (1)提出了一种彩色图像水印算
随着对地观测卫星等研制需求迅速增长,需要处理的遥感图像数据量也急剧增大,这对地面图像检测与处理系统的研制提出了严峻的挑战。针对现阶段数据传输通道码率高、数据处理复