含重现概念漂移的数据流分类研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:stat2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今大数据时代,我们可以采集到很多以流的形式产生的数据,比如传感设备产生的数据,购物网站不断产生的用户浏览和购买记录,还有社交网站用户构成的不断变化的社会网络等。数据流中常常隐含概念漂移,使得传统分类方法不再适用。概念漂移问题已成为数据流分类的重大挑战之一,重现概念漂移是概念漂移的一种子类型。另外由于数据流高速、海量的特性,导致实际应用中难以获得所有样本的真实类别,造成大量样本真实类别的缺失。针对数据流分类中的重现概念漂移和大量样本的真实类别缺失这两个问题,本文开展了以下工作:(1)针对重现概念漂移检测中的概念表征和分类器选择问题,提出了一种适用于含重现概念漂移的文本型数据流分类的算法。通过计算不同批次样本的主要特征及影响因子的差异度以识别重复出现的概念,为每个概念维持一个分类器且及时更新,并依据Hoeffding不等式选择最合适的分类器对当前样本集实施分类,以提高对概念漂移的反应能力。实验结果表明所提算法在含重现概念漂移的数据集上的分类准确率,对概念漂移的反应能力及对概念漂移检测的准确率均明显优于其他四种对比算法,且同时适用于对不含重现概念漂移的数据流进行分类。(2)提出一种含重现概念漂移的不完全标记数据流分类算法。该算法通过监测分类准确率以检测重现概念漂移,检测阈值根据分类器的泛化性能自动调整,以防止检测过于敏感或迟钝,同时避免了需要人工设置阈值的缺陷。该算法基于概念之间通常具有重叠区域的特性,利用各个历史概念的分类器辅助半监督分类以标记未知真实类别的样本,从而扩大训练样本集,以增加分类器的泛化性能。实验结果表明:所提算法有效地减少了概念漂移及真实类别缺失造成的分类准确率的损失。其中提出的重现概念漂移检测方法能够较准确地判断出两概念是否属于相同概念,从而能够利用重现概念提高对概念漂移的反应速度,大大减少了概念漂移造成的分类准确率的下降。提出的利用历史分类器辅助的半监督分类方法能显著提高标记准确率,从而能够更好地利用未知真实类别的样本以增加分类器的泛化性能。
其他文献
随着汽车行业的快速发展,汽车控制网络(简称车控网)开发周期的缩短和开发成本的降低,对于汽车开发来说,变得越来越重要。为车控网的开发引入低成本的软硬件协同设计开发工具链,特
硬件发展模式从以前的提高CPU主频速度转变为现在的增加CPU内核数量,注定了软件开发技术的变革。软件的性能再也不可能因为硬件的简单升级而带来显著提高。想要发挥多核的威
基于无线传感器网络(WSN)的目标监测是无线传感器网络最广泛和最重要的应用之一,也是当前研究热点之一。由于具有自适应性、灵活性和低能耗性等特点,基于无线传感器网络的目
随着互联网技术的高速发展,网络上的文本种类越来越多并且日益高速增长,人工筛选适合的文本种类是不切实际的,对互联网上的各类文本进行信息采集就不可避免的使用到智能化的
随着网络信息技术的不断发展,全球使用互联网的人数在持续的增加,互联网已经在很多行业进行实践和应用,带来了互联网数据的批量式增加,分析处理这些海量的互联网数据是一个至关重
随着我国市场经济的发展,以及加入WTO后市场竞争的加剧,商品销售企业面临前所未有的挑战。在客户市场趋子饱和的前提下,如何保持和完善客户关系、提升客户价值成为企业关注的焦
数据挖掘,作为一种能够帮助人们从大量数据中提取或“挖掘”有用信息的强有力的技术,已经被应用到众多的领域,如金融、电信、零售业、科技,甚至国家安全领域等。然而,在得益于数据
基于虚拟现实的建筑物建模技术一直是计算机视觉领域最热门的研究方向之一,快速建立地域特色鲜明、文化内涵丰富的古建筑群在建筑设计、3D游戏、旅游宣传、城市规划等领域存
学位
随着Internet技术的发展,计算机软件的应用逐步由静态封闭转变为动态开放。Web服务技术和面向服务体系结构的发展为软件和应用的开发提供了一种新型模式,使开发不必从零开始,