面向小样本的代价敏感回归学习研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zhongtuo97
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
回归学习是机器学习领域的重要研究方向之一,在企业运营决策、金融风险控制等方面都具有广泛应用。传统的回归学习基于预测代价相等的假设来最小化预测误差。然而在现实场景中,过多预测和过少预测所带来的代价普遍是非对称的,如需求预测、购买率预测等。这就需要以最小化错误预测代价为目标的代价敏感回归学习。在代价敏感回归学习任务中,往往面临着数据量较少的问题。然而直接使用小样本数据进行模型训练会带来两个挑战性问题:1、小样本量不足以过滤次要信息;2、较少样本量导致训练模型不能充分表示真实的数据结构从而具有高方差。最终这些问题降低了模型的预测性能。已有研究,针对小样本下非代价敏感学习问题提出了诸多解决方案,包括增加样本量、特征选择以及学习方法设计等。这些方案应用在代价敏感回归学习中存在缺陷,对回归预测的帮助有限。为了提升小样本的代价敏感回归学习的预测效果,考虑集成学习以及特征选择,本文提出两种新的思路,使用“模型修正”代价敏感回归学习框架,采用BP神经网络模型进行回归预测,模型非对称代价损失函数使用LLC和QQC。本文研究工作主要包括以下两个方面:(1)本文提出基于簇内信息的Bagging集成算法(ICPFB算法)。该算法使用Bagging集成算法,通过组合多个弱学习器来降低模型预测方差,同时借助簇内信息对特征进行有交叠且有放回的特征采样。实验结果表明,该方法降低了模型日均预测成本和模型方差,提升模型预测性能。以传统Bagging集成算法模型预测结果为基准,模型损失函数使用LLC和QQC,ICPFB测试集的日均成本均值分别降低了6.3%和3.7%。(2)本文提出基于簇内信息的特征选择算法(ICPFFS算法)。该算法借助簇内信息对特征进行二次筛选,在筛选出重要特征的同时减少模型训练所需要的数据量,达到提升模型预测性能的目的。实验结果表明,在ICPFB算法基础上,该方法进一步提升了模型学习的性能,模型预测日均成本和方差均下降。以传统的特征筛选算法和单个神经网络预测的结果为基准,模型损失函数使用LLC和QQC,ICPFFS的预测成本分别降低了33.5%和32.4%;与ICPFB相比分别下降7.9%、10.5%。此外,该算法在随机森林、XGboost和神经网络这3种模型下,提升效果都是鲁棒的。
其他文献
伴随着对癌症不断的深入研究,人们越来越认识到突变在癌症演化过程中的重要性,其中对癌症的演化方向和程度有着决定性作用的驱动突变逐渐进入研究者的视野。驱动突变赋予肿瘤细胞选择优势以使细胞逃避人体免疫监控机制,从而在人体内大量分裂并逐步威胁到人体组织器官。随着人们对这种驱动机制的研究深入,逐步发现癌症细胞中突变在基因水平上的倾向分布呈现出在癌症基因上大量聚簇的现象,这种簇被叫做突变簇。同时由于肿瘤异质性
在大型数据中心内部,云网关设备作为数据中心流量的出入口,有着举足轻重的地位。随着互联网时代数据流量的快速增长,云网关需要提供越来越高的性能来承载快速增长的流量吞吐。而当前数据中心的云网关在面对这种快速增长的数据包处理需求和复杂的互联网流量环境时,不仅要满足高性能的包处理能力还需要保障租户的服务质量等级协议,往往无法做到服务质量和设备资源利用率的良好平衡。一方面,厂商为了保证服务质量必须为预期的峰值
在深度学习领域中自然语言处理具有重要的地位。随着深度学习在这一领域的研究和计算机硬件设备的不断进步,对于文本分类算法的优化也在不断进行。目前,用于自然语言处理的算法主要有CNN、RNN、CLSTM等一些经典的深度学习模型。虽然这些模型能够较好的处理常见的文本数据,但是对于bug report这类噪声较高的文本数据,常见的一些深度学习模型无法较好地完成工作。对于一个有详细信息的bug report,
林区侵蚀退化现象在我国南方红壤区域广泛发生,马尾松是我国南方红壤水土流失区生态恢复与重建工作中的先锋树种,但由于马尾松林植被结构单一,林下植被缺乏,加之雨期降雨集中,在严重的侵蚀作用下林区生态环境极易发生退化。目前,侵蚀退化林区的恢复工作受到了更多的关注,构建多样化、立体化的植被系统对于林区生态系统恢复至关重要。现有研究多集中于多种恢复模式对于减流减沙、提高土壤肥力的效果,而对于不同模式下土壤微生
现代网络通信技术飞速发展,网络信道上充斥着各种各样的媒体信息,数字图像在网络信道中和各类媒介平台上扮演着重要的角色。然而,快捷便利的网络通信也存在着信息安全的隐患,如何确保图像信息不被第三方所窃取成为备受人们关注的问题。目前,由于混沌具有复杂的动力学特征且与密码学具有天然的联系,混沌图像加密领域激发了诸多学者们的研究热情。大多数的加密算法使用的都是耗散混沌系统,含有吸引子,不能抗重构攻击,而与之相
“肠道假说”提出慢性心力衰竭环境下机体肠道形态结构发生改变,肠壁通透性增加,肠道屏障功能障碍,肠道微生物群以及代谢物紊乱,炎症反应促进心力衰竭的病理进展。肠道环境失调与心力衰竭的进展密切相关。故改善肠道生态环境有望成为心力衰竭新的治疗靶点。心力衰竭的中医药治疗源远流长,并且在改善肠道环境占据优势地位,文献表明,中医药可以从保护肠道屏障、调节微生物群的组成和代谢产物、抑制肠道慢性炎症反应方面改善肠道
PDF是一种常用的多平台文档储存格式,并广泛应用于电子文档的发行以及数字化信息的传播。随着PDF的不断普及,从其中提取相关的结构信息逐渐成为研究的热点,这些结构信息可作为文本提取、机器学习以及PDF重构等应用的重要数据来源。然而,作为一种固定的文本格式,PDF并不直接提供相关的结构信息,因此需要利用结构解析方法对PDF文件进行处理。本文以学术论文PDF结构作为研究对象,针对PDF全文结构提出了一整
退耕还林(草)是我国最大的生态恢复计划。经过20年的建设,已经产生了巨大的生态效益,成效显著。从生态系统服务角度评估退耕还林(草)的实施效果,对掌握工程的实施效果,以及管理策略的优化等具有重要意义。当前大部分退耕还林(草)生态系统服务研究未对退耕区和非退耕区进行区分,其结果难以凸显工程对生态系统服务的影响。对退耕区进行识别,量化实际退耕发生区的生态系统服务,更有利于管理者把握退耕还林(草)的各项生
深空探测作为航天领域发展的重要方向,对航天器自主运行能力有较高的要求。天文导航将自然天体信号作为导航目标,能够从测角、测距、测速三种途径实现航天器快速定位和姿态调整。多普勒测速导航是近年来新兴的天文自主导航方法,利用航天器搭载的摄谱仪获取光学谱线信息,可实时获得航天器相对导航源的径向速度。该方法高度自主,求解简单,摆脱了地面支持的局限性和轨道动力学模型的复杂性。在目前对多普勒测速的研究中,导航源可
在现行的燃油脱硫策略中,氧化脱硫(ODS)不仅能够在温和的反应条件下去除难处理的芳香族有机硫化合物,而且能够选择性地将硫化合物转化为有价值的砜或亚砜产物,已受到众多研究者的关注,并有望替代或补强传统的石油脱硫技术(加氢脱硫)。然而,为实现高效和选择性催化氧化有机硫化合物,催化剂和反应条件是关键因素。因此,本文分别设计制备了三氧化钼与钛改性的硅酸盐复合催化剂和富电子的氮掺杂的碳材料负载的缺陷型二氧化