基于宽度学习和MetaCost方法的代价敏感算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:eire
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
宽度学习系统(Broad Learning System,BLS)在数据工程和知识发现领域中是一项极具前途的新技术,相比传统神经网络而言具有模型结构自适应和快速在线学习的优势。现阶段有关BLS的研究大多均停留在较为平衡的数据集上,而随着代价敏感问题在日常生活领域逐渐增多,将BLS这一新技术运用到代价敏感场合的研究将具有十分特殊的意义和价值。Meta Cost算法是一种经典的代价敏感学习方法,它具有元学习的特性,通过重采样和最小代价计算,它在原始数据集上生成一个考虑了代价的新数据集,从而可以应对代价敏感场景。经过重采样和子模型融合这两个层面上的改进后,Meta Cost算法也可很好地应对数据集不平衡的情况,且元学习的特性保证其与BLS可具有很好的相容性。MC-BLS算法是一种以Meta Cost框架和BLS算法模型为基础的面向代价敏感场景的改进算法,可用以应对代价敏感、样本数据不平衡的情况。MC-BLS将BLS灵活增量、在线学习的特性和Meta Cost在处理代价敏感问题上的优势相结合,发挥了BLS模型结构可变特性的优势,缓解了BLS稳定性不足的问题,保证了Meta Cost中集成学习多个子分类器间的差异性和高效性。在数据集划分和模型融合层面作出改进后,这种将二者组合使用的方式还具有较强的稳定性,且能确保少数类样本得到模型足够的关注度,有效提高算法在非平衡数据集上的表现。经过在多种公开数据集上进行的一系列稳定性和准确性实验,可以明确认为改进算法MC-BLS可有效应对代价敏感和数据集不平衡问题,与BLS在平衡数据集上的表现相当,缓解了BLS稳定性上的劣势。在与其它非平衡方法的对比中,MC-BLS在大多数情况下均取得了优于其它模型的表现,预测性能较强。
其他文献
随着移动互联网和移动终端设备的高速发展,即时通讯软件逐渐成为人们生活中必不可少的一部分,即时通讯软件节约人们沟通成本,增添了沟通乐趣。然而,市面上的绝大部分通讯软件采取闭源设计,提高了开发人员的成本。因此制定高效的网络协议,提高通信效率,降低通信的流量成本仍然是亟待解决的问题。本文阐述的分布式即时通讯系统采用分布式架构设计,操作系统采用的是Linux Release,通信协议使用的是Protoco
学位
在计算机CPU核心数量不断增加、多用户互联网应用广泛普及的背景下,如何提高计算机程序的并发度,使之充分利用多核CPU的优势以及网络的等待时间,成为了软件开发的重要问题。数据结构是计算机程序的重要组成部分,在这种背景下,数据结构的并发安全性与并发操作的性能也成为了软件开发人员关心的重要问题。因此,为满足软件开发人员在并发程序开发中对于无锁的、并发安全的数据结构的使用需求,基于不可变数据结构和Go语言
学位
在当今社会中,推荐系统已经深入到生活的方方面面,日常生活中使用的互联网应用通常都会将推荐系统作为关键的部分来给用户提供符合其偏好的项目。但是随着生活越来越多地与互联网进行绑定,以往的单纯以算法论英雄的方式已经不足以满足社会的需要。而针对现有的推荐系统,即使管理员发现推荐结果出现了问题,比如给未成年人推荐了并不合适的视频或商品,由于推荐系统的黑盒特性,管理员也难以对系统进行有效的调整。因此完全把握推
学位
传统基于Hadoop生态的离线数据存储计算方案已在业界大规模应用,但受制于离线计算的高时延性,越来越多的数据应用场景已从离线转为实时。Apache Flink作为一个近几年快速发展的分布式大数据处理引擎,凭借其在实时(流)计算上的明显优势和相对完备的SQL支持,成为各公司实时计算平台的首选计算引擎。然而传统的实时计算平台大多通过打包的方式提交任务,用户的学习成本较高,开发效率低下,任务的维护成本也
学位
随着近些年智能移动设备的普及,对图片的背景进行虚化可以让图片更有层次感,成为一种潮流和趋势。人们在观察一张图片的时候,首先会关注感兴趣的区域,该区域可以被视为图像的前景区域,可见人的视觉注意力机制和图片背景虚化技术有很强的相关性。但是目前只有华为mate10的相机模块使用了基于视觉注意力机制的背景虚化方法,并且主流的人眼注视点预测算法忽略了图像的低级特征。因此提出兼顾模型高低级特征的模型,并将该模
学位
弱监督图像语义分割是语义分割在研究中的一个重要分支,在自动驾驶领域、图像计算和机器人等领域有着重要的应用。相比于传统图像语义分割,弱监督图像语义分割的模型减少对精确标签信息依赖的同时又能预测出好的图像语义分割结果。其中图像级标签具有人工标记成本小,容易获取的优点,针对于图像级标签的弱监督语义分割算法,许多研究聚焦于基于种子生成、扩充、边界约束方法,但这类算法面临以下问题:传统类激活映射图生成初始种
学位
近年来,我国空气污染现状日益严重,不仅严重影响了城市环境,而且时刻威胁着人民的健康。由于大气污染的成因十分复杂,涉及区域广,一般治理措施的实施效果往往很难达到预期,因此治理大气污染需要进行城市圈级别的联防联控。在大气污染联防联控过程中,需要对采取控制措施后的空气质量变化情况进行仿真模拟,评估模拟结果,寻求较好的控制措施。然而随着仿真模拟需求的日益增长,伴随着海量的大气模拟数据,传统的人工模拟操作低
学位
随着互联网应用系统的发展,系统架构会因为不断的需求更新和版本迭代而变得愈加庞大和复杂,如何对业务系统进行实时高效的监控,是每个互联网应用背后需要解决的实际问题。为了保证业务系统的平稳运行,不但要对系统运行状态进行实时监控,而且要在发生异常的第一时间发出告警消息,为此设计实现了一套能一站式监控服务器性能数据、运行微服务模块的Docker容器性能数据与业务数据,且能提供高效率告警服务的业务监控和告警系
学位
随着信息时代的大爆发,数据采集的技术持续优化,各行各业都在爆炸式地不断产生新数据,其中就包括医疗行业。如今,几乎每个医院都有了较为完整的就诊体系,将所有流程都规范化,从而有效监控病人的状态和纪录所有数据,纪录在案的医疗数据呈指数型增加。因此,利用数据分析技术和机器学习算法,将过往患者的病例纪录作为样本,训练学习出有价值的未知信息,并应用于疾病预测,有着重要的实际意义。本文针对医学数据集,从数据分析
学位
前沿热门技术主要是指在高新技术领域中具有前瞻性、先导性的重大技术,对于一个公司,一个部门来说,在海量的网络信息中寻找到符合自身的前沿热点话题非常重要,这些前沿热门技术话题信息随时间变化,把握好它们的变化趋势有利于社会的和谐与稳定,具有较大的实际价值和意义。话题生成的核心思想是把相似的文本信息合并在一起,传统方法是通过计算文本相似度和文本聚类形成话题,但是如果数据量太大往往会导致向量维度太大,计算困
学位