基于STORM的流数据分类挖掘算法的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:dark_zj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络、传感器技术的快速发展与应用,越来越多的流数据正在产生,因此针对流数据的挖掘技术逐步兴起。流数据挖掘是指从大规模、快速到达、异构的数据源中有效地挖掘有价值知识的数据处理技术。本文把面向流数据的分类挖掘算法作为研究重点,以提高流数据分类挖掘效率以及分类精度为目标,既研究算法本身的改进又研究算法基于流数据处理平台Storm的分布式并行化。以提高实时在线流数据的分类挖掘时间效率为目标,将快速决策树算法VFDT部署到流数据计算平台Storm上,设计了VFDT算法基于Storm的分布式并行化方案。通过正确设计Topology中的Spout/Bolt实现各模块的功能,通过为分类Bolt设定多个Task来实现分类模块的并行化;用内存数据库Redis实现模块的有效衔接和决策树的保存;用消息中间件Kafka来提高算法对流数据突增的容忍度。基于该方案的VFDT算法实现与测试结果表明,在Storm集群环境下,VFDT算法的时间效率相对于单机环境有显著提高,而且合理设定分类Bolt的Task可使分类效率进一步提高。针对高维数据集,以进一步提高在线流数据分类模型建立的时间效率为目标,对VFDT算法实施垂直并行化,设计了垂直并行化的快速决策树算法(Vertical Parallelism Very Fast Decision Tree,VPVFDT)。该算法将VFDT算法的属性信息增益的计算做并行化处理,从而提高样本处理效率。在此基础上,通过将VPVFDT部署到Storm平台上运行,更进一步提高了算法的处理效率,也增强了算法的可拓展性。实验结果表明,在Storm集群环境下,VPVFDT算法在一定程度上可以提高高维训练样本的处理效率。以提高VFDT算法的分类精确度为目标,将随机森林算法思想集成到VFDT算法中,提出了基于随机森林的快速决策树算法(Random Forest Very Fast Decision Tree,RFVFDT)。RFVFDT算法采用随机森林的决策树构造标准建立分类器模型,并采用滑动窗口技术来满足流数据的无界性以及避免在算法执行过程中的延迟和数据丢失。通过基于Storm平台的仿真实验验证了RFVFDT算法在分类精度和可拓展性方面的优势。本文所研究的方案和算法能适应大规模流数据的实时性、快速性和无限性,研究内容较先进,研究成果具有一定的理论价值和较好的实用性,可用于电子商务、互联网等拥有流数据的应用场景。
其他文献
当今,随着网络技术的迅猛发展和广泛应用,网络已经成为人们共享信息的主要方式,人们可以随时、随地以各种方式提供和接受信息。然而,网络技术是一把双刃剑,在给人们带来巨大便利的
分析和识别单体型对复杂疾病致病基因的精确定位有重要作用,但是在当前的实验技术下直接测定个体单体型所需的时间和金钱上的花费过于昂贵,因此利用计算机技术来确定个体的单体
人工免疫系统是用来解决复杂问题的自适应系统,其中人工免疫网络可用于分析数据的聚类问题,数据聚类是实现图像分割的一种常用的方法。因此,本文围绕人工免疫网络在图像分割
近年来,计算机CPU速度的高速增长和内存速度的缓慢增长使得CPU和内存之间的速度差距越来越大,这导致内存系统成为性能上的瓶颈,现代计算机体系结构中广泛采用Cache来降低这种
爆炸式增长的数字信息给人们的日常生活乃至企业的业务运营都带来了巨大的挑战,存储系统中的冗余数据信息变得越来越多,极大地增加了存储备份的开销,降低了存储系统的性能。
近几年来,电子商务已进入飞速发展时期,了解市场、为消费者提供满意的服务是公司取得成功的关键。当今的商业环境比从前更加复杂并且充满竞争,如何有效的为生产商提供市场消
在通信整机的实际调试过程中,人工参与成分多,常以经验为先,缺乏科学统一的调试规范,造成了通信整机调试速度慢的后果,进而影响了生产速度。因此,需要进行调试数字化研究,实
随着人类社会的快速发展,保证全民身心健康已成为广泛的社会需要。医疗器械及相关标准的研究在世界各国得到了迅速的发展。随着医疗器械的功能和作用日益细化,以期的自我适应
近年来伴随着物联网技术的不断进步,作为物联网核心领域的M2M(Machine to Machine)网络得到快速发展,如今的M2M网络可以为各行业实现完整的综合解决方案,包括数据采集、数据
网络安全可视化已成为网络安全研究工作中的一个热门研究领域。面对当前海量高维的网络安全数据、愈发精细的入侵攻击和网络结构的不断复杂化等问题,网络安全可视化以其具有