针对类别不平衡数据流的在线主动学习算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:sjhung888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线学习是一类用于时序数据挖掘的机器学习范式,现已广泛应用于各种时序分类任务中。在实际应用中,时序分类任务通常面临两个严峻挑战:(1)类别不平衡问题,即不同类别样本数据量差异巨大。严重的类别不平衡问题会导致在线分类器难以正确分类少数类样本。(2)小样本问题,即可得到的有标签数据量有限。标签数据的稀少会导致分类器难以较好拟合数据分布从而进行分类。这些挑战使得大部分现存在线学习方法难以有效解决实际时序分类任务。为解决这些挑战,本文分别从在线分类问题和在线主动学习问题两个方面对不平衡时序数据流开展研究。首先,针对在线分类问题,本文提出了一个代价敏感在线分类算法。该算法针对不同类别设置差异化的误分类代价,并探索样本二阶信息自适应地调整学习率,因此能够更快更好地处理类别不平衡的在线分类问题。其次,针对在线主动学习问题,本文提出了一个在线自适应非对称主动学习算法。该算法同时为模型更新和样本选择策略设置了差异化的类别权重,因此能够有效地区别少数类和多数类样本的重要性。同时,通过探索样本二阶信息,该算法具有更高的质询可信度和更快的收敛速度,因此能够快速地适应时序数据的分布变化,从而解决在线主动学习问题。为了验证所提出的算法,本文对算法开展了理论分析,并做了大量实验验证。所得到理论和实验结果不仅论证了算法的有效性和优越性,还验证了两个重要设想:(1)样本二阶信息和代价敏感目标函数有助于处理类别不平衡在线分类问题;(2)同时在模型更新和标签质询时考虑类别不平衡,并基于样本二阶信息构建非对称策略,能够有效提升算法质询可信度,加快模型收敛速度,改进算法在在线主动学习任务中的性能。
其他文献
丰田汽车的精益思想不仅体现在产品生产环节中,还体现在产品开发及销售服务体系上。在精益生产方面,东安汽发多年来推行的三菱化管理模式,在生产环节已经做到了精益生产。在
成都大运会的精彩,除了赛事,还有更广阔、更有意义的外延——志愿者,就是大运会开出的"爱之花"。2019年2月,随着成都大运会志愿服务筹备工作开启,团市委也正式启动志愿者招募
近几年关于网络科学的理论和应用研究的论文得到了大量的发表,网络研究吸引了越来越多的人的关注。在网络分析过程中,通过数据可视化的方式对网络进行展示和操作,能够直观地体现网络的结构,有助于研究人员更好地对网络信息进行挖掘。目前,网络分析工具大部分都是单机软件或者基于C/S结构的应用系统,随着Web应用的发展,基于浏览器的在线可视化技术因其跨平台性好、交互性强、方便部署等优点受到了人们的关注。本文设计并
食品安全问题是影响国计民生的重要社会问题。食品安全事故严重损害人民群众的身体健康,对经济和社会造成了严重的后果。因此,开展食品安全预警研究对于减少食品安全事故的发
近些年来,杨树的病害类型增多,侵染程度逐年加重。准确快速地识别病害种类对防止杨树病害大规模爆发有着至关重要的作用。为实现杨树常见叶部病害种类的快速识别,本文提出了
近年来,以机器人为代表的人工智能产业逐渐走进了各行各业,单机器人系统在很多方面不能满足人们生产和生活的需要,多机器人协作控制成为了当今机器人研究的热门方向。多机器
党的十九大明确提出“创新是引领发展的第一动力”,区域创新成为研究领域的关注热点。长期以来,我国以发展制造业为主,随着分工的专业化程度提高以及信息技术的快速发展,现代
随着数字媒介技术的高速发展,大量信息充斥整个社会,人们的文化生活愈加丰富,新闻工作也显出蓬勃生机。从传统媒介报纸的发展到广播、电视、网络等多元化媒介技术的普及,新闻
水热炭微球(Hydrochar or biochar microspheres)表面光滑,球形结构规整且富有含氧官能团,是一种性能优良的新型功能材料。本论文以废弃红麻秆芯为原料,系统研究了不同酸催化剂体系对其低温水热炭化产物的得率、形貌、尺寸和表面官能团特性的影响规律,旨在寻求一种绿色低碳的简易制备途径,以期获得具有规整球形结构、尺寸单分散性佳且表面功能特性可调的高产率炭微球。论文研究结果进一步丰
目前,无线传感器网络(WSNs)已被广泛应用于森林资源管理与环境监测等领域,但受到森林环境的限制,使其面临严重的供电短缺问题。高效地收集与利用森林环境能源为无线传感器供电