【摘 要】
:
近年来,移动互联网、物联网等技术高速发展,各种形式的网络应用走进日常生活中,例如移动支付,传感器网络等。这些应用每天都在处理海量的数据,并且提供实时的网络服务,例如数
论文部分内容阅读
近年来,移动互联网、物联网等技术高速发展,各种形式的网络应用走进日常生活中,例如移动支付,传感器网络等。这些应用每天都在处理海量的数据,并且提供实时的网络服务,例如数据查询和个性化推荐,智能服务等。许多应用的数据以数据流的形式产生。由于数据流具有海量、连续快速产生和随时间不断动态变化的特点,数据流中的数据处理必须满足实时性的要求。传统的数据挖掘算法面临巨大挑战,需要针对数据流的本身特点和应用特点提出相应的算法。同时,数据流中存在概念漂移问题,数据中的概念会随着时间和背景环境发生改变,数据流中的模型需要及时发现这些变化,对这些变化进行检测,使模型能够及时对新概念进行学习。而传统的概念漂移检测方法一般根据某些检测指标将概念划分为发生漂移、没有发生漂移两类。这些方法容易受到噪音等不确定因素的影响,将变化速度较缓慢的概念漂移判定为概念没有漂移,将不确定因素造成的检测指标变化判定为概念发生漂移,检测准确率较低。针对这个问题,本文提出一种三支决策的概念漂移检测算法,提高了检测性。1.本文提出一种三支决策概念漂移检测算法。利用决策树学习数据流中的概念,然后不断检测概念是否发生漂移。决策树中的每棵子树对应一个概念,在检测过程中,用决策树对训练数据进行分类,然后根据各子树的分类错误率,将它们划入三支决策的L域、R域、M域中,分别代表概念没有漂移,概念发生漂移,概念可能漂移。2.提出一种对M域进一步划分的方法。在数据流中,不确定因素广泛存在,数据流中含有大量噪音数据和异常数据。如何区分概念漂移和噪音等不确定因素是概念漂移检测的关键。本文根据不确定因素和概念漂移对数据分布影响的幅度和变化趋势的差异,提出一种基于累积和的概念划分方法,对不确定是否发生漂移的概念进一步划分。3.通过在数据流分析平台上进行对比实验,验证了算法对概念漂移的检测能力。在人工数据集上,比较概念漂移发生后的最低分类准确率和分类准确率的变化情况,在真实数据集上比较各算法的平均分类准确率,反映了本文提出算法可以及时准确地检测出概念漂移,提高分类器对概念漂移的适应能力。
其他文献
随着互联网应用的普及,基于互联网渠道开展融资和产品发布的众筹模式最近几年在全球范围得到快速发展,由于众筹发起方和众筹项目千差万别,有些项目刚刚达到目标筹资额,而有的
近年来,随着云计算、网络视频、移动应用和CDNs(Content Delivery Networks)等新型网络应用的蓬勃发展,数据中心网络的规模不断扩大,数据中心间业务的带宽请求呈现几何式增长
工业社会的不断发展,衍生出了诸多的能源、环境问题,亟待人们去解决,绿色化学的研究与开发成为当务之急。寻找具有高选择性和活性的催化剂,特别是那些易于回收的催化剂,对发展可持续的化学过程至关重要。醇的选择性氧化是有机合成和工业化学过程中的一个基本转变。以2,2,6,6-四甲基哌啶-1-氧自由基(TEMPO)为催化剂,结合O_2作为氧化剂的体系,由于其材料易得、环境友好、催化效率高、化学选择性好,是一种
税收规避被认为是用来降低企业税负、增加企业现金流的行为,企业避税因其隐蔽性相应的增加了企业的各种显性或隐性的税收性及非税收性成本。学者的研究结果也表明,避税会产生许多负效应。那么这些负效应会影响企业的非效率投资吗?其作用机制是怎样的?又该如何缓解这些负效应?本文围绕这些问题展开研究。企业投资时出现的投资不足和投资过度问题是人们普遍关注的热点话题,在环境规制、资源税改革的背景下,研究资源型企业非效率
热电材料是一种可以通过材料内部载流子的定向移动,实现电能和热能直接相互转换的功能材料。由它制成的热电器件(包括温差发电器件和热电制冷器件)均具有安全可靠、无污染、无
本文利用广义谐和小波,推导了非平稳过程演变功率谱和时变功率谱的估计公式,并以此为基础对Bouc-Wen系统的非平稳响应进行了分析,通过估计真实地震动时程的演变功率谱,提出了
输油管道作为国家重要的运输设备和基础设施之一,其安全运行不仅关系到能源在输送过程中不被浪费,也关系到对周边环境的安全。而管道是否安全运行的一项重要指标就是能否对管
随着时代的发展,人们对私人住宅得安全防范需求越来越高。设计一个基于机器视觉智能监控的个人使用的监控系统具有重大的研究意义和应用价值。其可在无需人工监控的情况下24
随着对高性能、高精度的电子及光电子器件的需求越来越大,人们已经逐渐开始探究纳米界面和纳米结构材料的特性。纳米金属颗粒、纳米线和纳米棒展示出极好的电学、光学和热学
移动设备的不断增加和定位服务(如GPS)的快速发展,使得大量的数据轨迹被快速的生成和收集。传统的基于位置的轨迹搜索,给定一组查询点,从轨迹数据集中检索在地理空间上尽可能