数据流概念漂移检测算法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:halfmile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,在网络监控、电信数据管理和金融服务等领域源源不断地产生新数据。具有海量、连续、多变及潜在无限性等特征的数据流不仅为数据存储带来挑战,也加大了知识获取的难度。数据流中目标概念随着潜在信息变化而变化的现象称为概念漂移,概念漂移检测可应用于垃圾邮件检测、金融欺诈监测、天气变化预测和客户偏好调查,具有很高的应用价值。针对概念漂移检测,已有的工作主要采用基于规则、决策树、朴素贝叶斯和支持向量机等方法。通过计算概率分布的特性和分类精度来检测漂移,在概念刻画和分类方法上仍然可以做出改进。因此,本文针对数据流中的漂移检测问题展开研究。论文主要工作如下:(1)概述面向数据流的概念漂移检测算法普遍存在的问题,分析其优缺点,提出本文算法的突破口和所要实现的目标。(2)数据流概念漂移检测的性能依赖于概念刻画的精度,已有的算法主要基于单窗口机制,窗口间有序而窗口内无序,丢失了概念内的时序特征。针对此问题,研究并提出了一种基于序列比对的概念漂移检测算法CDD_BSA。该算法采用滑动窗口机制,改进Needleman-Wunsch算法作为相邻窗口的概念相似性度量指标。实验表明:与已有的代表性的概念漂移检测算法比较,该算法刻画概念更加细致,可以适应不同类型、不同速率的概念漂移。(3)基于单窗口机制的概念漂移检测算法受窗口规模影响很大,窗口过大不适应新的目标概念;窗口过小导致目标概念学习数据不完备。针对这一问题,本文提出一种基于动态窗口的概念漂移检测算法CDD_BDW。该算法使用朴素贝叶斯分类方法,采用Boosting算法构造混合集成分类器,动态调整窗口大小以适应不同类型的漂移,动态更新集成分类器以保证分类精度。实验表明:动态调整窗口机制有效,与已有的代表性的概念漂移检测算法相比,该算法在分类精度以及漂移检测能力上都有更好的表现。
其他文献
在自然语言处理领域,语义推理研究是一个非常重要的研究课题。虽然目前的语义研究尚且不够成熟,但语义推理研究对于深入分析文本语义,使计算机更加智能具有深刻的意义。本文
在电信行业,其客户数据的增长速度越来越快,为了提高其决策效率,人们已将数据挖掘中的聚类分析技术引入电信业的客户关系管理中。在数据挖掘中,大部分对象的类属性和归属关系没有严格要求和限制,这些对象数据的属性存有重复叠加性、和交错性,这种特点比较适合进行模糊划分,而且现实生活中许多客观事物之间又具有模糊性,便产生了模糊聚类分析。将模糊聚类应用于各个领域成为了一个研究热点。本文对课题研究主要有以下几个方面
伴随着网络技术的发展,许多应用需要迁移到网络环境的异构平台上,这对新一代的软件开发提出了新的需求。中间件(Middleware)正是应这个需求而被提出,成为研究的热点。   消息
学位
MicroRNA(MiRNA)是RNA家族中的一员,被称为小分子RNA。目前,众多的研究表明,miRNA与生物体的基因表达、生长发育和行为等都有十分密切的关系。早期对miRNA的识别均采用生物学
汉语基本块识别是汉语语块分析体系中的基础任务之一,属于浅层句法分析的一个环节。对给定的汉语句子,汉语基本块识别任务将形式化为以字为基本标注单位的序列标注问题。基于
零形式是指句子中隐式的、未显示表达的语义成分,是传统语义角色标注不能标注出的语义角色,也不是谓词依存成分的语义角色。零形式被区分为有定的零形式和无定的零形式,其中,
云计算作为新兴的一种计算模式,它以互联网为基础,以服务的方式对外提供计算能力。它将网络上的各种资源整合成一个分布式服务集群系统,为用户提供可以缩减或扩展的计算资源。计
随着信息社会的不断发展,人们对信息的需求量逐渐增多,Web上拥有大量的信息资源,它逐渐成人们获取信息的重要途径。然而,由于不同的网站使用的数据往往具有不同的数据格式,所
随着信息化迅速推广和普及,导致各行各业基础信息量成几何倍增。海量存储和大并发成为主流大型数据库的标记。同时异地、跨行业的数据库服务器之间的数据信息交换、交互的诉