基于McDiarmid不等式的决策树分类方法研究与应用

来源 :北方民族大学 | 被引量 : 4次 | 上传用户:bach88888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和大数据的不断发展,数据流模型被广泛应用于社会生产和生活的各个领域。因此,数据流的收集和分析就变得至关重要。数据流的爆炸性增长,使得研究者需要更大的内存来存储这些数据流。然而,使用传统的数据挖掘技术很难处理数据流,并且不可能从大量数据流中提取有价值的信息。如今,研究者使用增量决策树方法来处理数据流分类问题,这是挖掘大量数据流中有用信息的方法之一。本文首先对数据流决策树分类方法的相关知识进行概述,包括数据流的定义、概念、特征等。其次介绍了现有的决策树分类方法,主要包括单分类决策树方法和集成分类决策树方法。然后研究基于McDiarmid不等式的数据流决策树分类算法。最后设计实现基于决策树分类方法的城市用户行为分析验证平台。本文的主要贡献如下:(1)首先介绍数据流的概念、特点和处理方式等基本知识。其次,对现阶段用于处理数据流的分类方法,包括决策树、支持向量机、贝叶斯、神经网络、KNN和关联/分类规则进行分析比较。接下来分析数据流决策树分类方法,包括单分类决策树方法和集成分类决策树方法。其中,单分类决策树方法包括快速决策树、快速决策树的衍生算法和其它类型的决策树算法。集成分类决策树方法包括基于Hoeffding不等式的集成分类方法、随机决策树衍生的集成分类方法和其它类型集成分类方法。(2)针对Hoeffding不等式处理数据流时间过长,并且在属性分裂度量方面存在不足等问题。比如信息增益和基尼指数,不能表示为实数值随机变量的和,其中,1≤≤,表示属性数是具有一定分布的实数值随机变量。为了进一步提高分类性能,本文提出了一种基于McDiarmid不等式的数据流决策树分类算法(McDiarmid Decision Tree,McDDT),并研究使用t进行属性分类度量。该算法与经典决策树算法相比,在分类准确率升高或者几乎保持不变的情况下,算法运行时间明显减少,生成决策树的节点数与层数明显降低。(3)本文设计了一种基于McDDT算法的用户到访行为分析验证平台,该平台采用Python语言基于Tkinter框架设计的。主要向用户提供了数据处理、数据分析和结果显示等核心功能,用于实现用户所到行政区的预测分析功能。
其他文献
目的:总结颈椎前路手术早期并发症并提出预防措施。方法采用前路手术治疗184例颈椎疾病患者,对术后发生的早期并发症情况进行分析。结果共36例50例次出现术后早期并发症,并发症
对于国内自主研发的大型民用运输机来说,相比较于国外先进成熟的研发经验和研发体系来说,国内对于机载计算机软件的研发和适航取证仍然处于起步阶段。然而随着国产大飞机项目
随着视频监控系统在当前社会中的广泛应用,人们对智能监控领域的研究越来越多,其中客流量统计技术在视频监控中有很好的发展前景,客流量统计可以为公共场所提供更直观和有效的决策依据,但人工计数、红外传感等技术难以实现复杂的客流统计,采用机器视觉技术可以较好的实现客流统计,因此研究基于机器视觉的客流量统计具有重要的意义。本文在单目摄像机斜向下拍摄的背景下设计并实现了客流量统计的系统,能够完成客流的实时检测、
破产重整是我国2006年通过的《中华人民共和国企业破产法》新引入的制度,专章规定在和解和清算之前,凸显了新破产法再建主义的立法宗旨。但是由于规定过于原则和简单,重整制
运动是一种传统而有效的锻炼身体方式,它有利于保持人的身体健康。对于运动的这项功效,人们长期以来都比较关注。近来有学者发现有氧运动是最好的大脑训练,同时也有研究报道
信息时代迅速发展,以网络和手机为主要代表的新媒体对人们的工作和生活产生了重要影响,也改变着青年的思想、行为、沟通方式。新媒体给企业团青工作既带来了挑战,也带来了机
目的:探讨中医体质致病因素对正常高值血压的影响。方法:采用1:1配对病例-对照的流行病学研究方法,对120例正常高值血压人群和对照组120例正常血压水平人群进行多元Logistic
对含有纳米级磁性微粒的磁性流体应用于热管进行了试验研究,分析了微粒浓度对热管传热性能的影响。试验结果表明,在试验研究的范围内,纳米级磁性颗粒应用于热管后减弱了热管
在城市化问题面临困境的今天,乡村复兴成为主要话题,通过激活乡村、发展村镇来解决城市弊病越来越成为共识。乡村实践必须坚持正确的方法,从实践中来到实践中去。乡建院经过
目的检测食蟹猴和猕猴血液生理、血液生化指标,分析食蟹猴和猕猴的生物学特性,初步建立食蟹猴和猕猴的常规血液生理生化检测指标。方法用日本光电MEK-5126K血球计数仪(动物芯