数据挖掘中分类算法的并行化研究与应用

来源 :电子科技大学 | 被引量 : 2次 | 上传用户：z_clear

【摘要】

：

随着“信息爆炸”时代的来临,数据挖掘的应用日趋广泛。许多商业决策者利用数据挖掘技术从海量的数据中获取有用的信息,为以后企业更好的决策提供帮助。然而,传统的数据挖掘

【作者】

：

王海涛

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2014年01期

【关键词】

：

分类挖掘算法决策树 Sprint 并行化列式存储

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着“信息爆炸”时代的来临,数据挖掘的应用日趋广泛。许多商业决策者利用数据挖掘技术从海量的数据中获取有用的信息,为以后企业更好的决策提供帮助。然而,传统的数据挖掘算法在面对海量数据的时候,由于各种原因,执行效率低下,已经不能满足人们日益增长的性能需求,需要寻找更加高效的算法或者执行策略。在银行以及相关金融行业,随着信用卡的风行和信贷业务的不断拓展,业务提供者需要了解客户的信用水平,降低业务的信用风险,以便更好的开展相关的业务。为了解决这一系列的问题,本论文选择分类算法进行分析,从数据存储方式和算法本身进行研究,指出它们在应用中存在的不足,并选择Sprint决策树分类算法作为具体的研究对象,对其进行改进和优化,并将改进后的算法应用到银行客户信用评估系统中进行分类规则的挖掘,具有一定的理论基础和实践意义。论文的主要工作有:(1)对几种典型分类算法(决策树算法,神经网络,贝叶斯网络以及遗传算法)的基本理论和实现原理进行了深入分析研究,通过分析总结前人的研究成果,给出了它们并行化的基本策略;(2)分析了目前数据挖掘实践中的主要特征:数据存储仍然以传统的关系数据库为主,需要处理海量数据以及挖掘主要以列操作为主。由这三个方面的特点分析得出:目前在挖掘过程中,行式存储和传统的串行算法已经不能满足人们对于挖掘效率的要求,需要更加高效的存储方式和执行策略加以代替;(3)在众多决策树算法中,选择Sprint算法作为具体的研究对象,指出在目前数据挖掘并行化实践中,存在两方面的问题:其一,是数据存储方式的不足;其二,是算法本身的局限性。通过对行存储和云存储模式的分析,提出将列式存储作为挖掘过程中训练样本集和属性列表的存储方式。同时,对Sprint算法在划分分裂属性列表和非分裂属性列表阶段提出改进,减少磁盘读写操作的时间,并给出了改进后Sprint算法的并行化策略;(4)在文章的最后,利用Java远程方法调用(Java RMI)机制并行的实现改进后的Sprint算法,应用在银行客户信用评估系统的分类挖掘模块中。然后,通过行式数据库和列式数据库性能的分析对比得出:训练样本集和属性列表以列的方式存储能够合理利用存储空间,提高查询效率。同时,在分类算法中,大部分的操作为列操作,采用列式存储,更加有利于挖掘过程的并行化,能够很好的解决人们目前面临的尴尬问题。另一方面通过将改进后的算法和原始算法做对比,可以得出:改进之后的算法,减少了访问磁盘所带来的I/O消耗,大大的减少了建树的时间,尤其在训练集巨大的时候,这种执行效率上的优势就会更加明显。因此,算法的改进是有效的。

其他文献

大规模人脸图像检索研究与应用

随着经济社会和互联网技术的迅猛发展,数字媒体技术日新月异,计算机视觉领域发生着翻天覆地的变化,智能信息得到广泛应用和发展,与此同时伴随而来的是海量图像数据。面对庞大

学位

SIFTVLADIVFADC多参照重排

基于虚拟机JIT机制的热点追踪技术的研究与应用

近年来,移动互联网正在逐渐渗透到人们生活、工作的各个领域,各种功能丰富的移动应用迅猛发展,深刻地改变着信息时代的社会生活。然而对于当前的移动设备而言,程序的执行经常

学位

虚拟机解释器即时编译器调用关系程序热点

嵌入式操作系统内核模型的代码自动生成及规则优化

模型驱动开发方法(Model Driven Architecture,MDA)的出现使得软件的开发在效率、质量、可维护性等各方面都得到了极大的提高。但是目前还没有MDA开发方法在嵌入式操作系统内

学位

动作语言自动代码生成模型驱动驱动程序

基于3D重建技术的图像合成

随着便携式拍摄设备,特别是智能手机的普及,拍摄照片以及后期对照片的美化处理已经成了人们生活中记录美好事物的一种普遍方式。且伴随着3D技术的广泛应用,例如3D电影和裸眼3

学位

三维重建图像合成光源方向估计

嵌入式多核代码分析器研究与实现

随着科学技术的不断进步和IT行业的高速发展,物联网、云计算已经成为了社会生活中的一部分,这个趋势已经难以扭转。嵌入式系统是这些产业应用技术的核心部分,已经渗透到了我

学位

嵌入式多核性能分析aCoral二进制插桩

基于SIP协议高速公路监控系统设计与实现

伴随不断推进的信息化技术,高速公路数字化网络化浪潮也经历了不断日新月异发展。现阶段高速公路视频监控暂无国际规范,大部分公司开发都采用私有协议,因此如何使高速公路监

学位

中心服务器道路监控系统SIP协议LINUX

基于大众信息源的城市管理移动平台系统的设计与实现

如今,城市的规模越来越大,城市管理事务也是越来越复杂,人们对城市管理的要求也越来越高,城市管理需要向更智能的管理形式发展。城市管理活动不仅是需要城市管理部门的参与,

学位

城市管理大众信息源众包Web服务移动平台

DTN网络数据传输性能优化研究

空间延迟容忍网络(Delay Tolerant Network,DTN)与地面有线网络存在着巨大差异:地面有线网络链路传输时延小,误码率低,TCP/IP协议中的传统拥塞控制算法能够得到良好地应用;而

学位

空间DTN网络Vegas算法显式拥塞通知TCP分段连接

推荐系统攻击检测算法的研究

电子商务的迅速发展给人们的生活提供了更加丰富的选择,但也使得服务信息呈现“超载”趋势,推荐系统是过滤信息的重要手段,是解决信息超载卓有成效的方法。然而由于系统本身

学位

协同过滤攻击检测AP聚类用户概貌概貌特征属性

基于数字星球的大规模真实感球形海洋的建模与绘制

随着时代的不断变化,虚拟现实技术的要求也越来越高,从2D技术逐步完善至3D仿真技术,对自然景物的模拟也紧跟着对我们提出更高的挑战。从地面虚拟现实变化到海洋的虚拟现实,从

学位

数字星球Perlin噪音海浪模型光照效果

数据挖掘中分类算法的并行化研究与应用

其他学术论文