基于样本分布形态与权重的欠采样方法研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:gaboo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据广泛存在于现实生活中,如在金融领域内常见的信贷客户数据,即信贷之后发生违约的用户量远远低于履约用户量。对不平衡数据分类进行研究可以指导相关决策,具有现实意义。直接通过传统分类器处理不平衡数据分类时,会使模型将预测结果向多数类偏移从而造成少数类的分类正确率降低。本文就数据层面出发,期望通过对多数类样本实施欠采样使数据集类别达到平衡,以提高分类精确度。本文基于Nearmiss欠采样方法存在的两个问题:未考虑噪声样本;运算速度较慢,提出了一种基于样本分布形态与权重的欠采样方法——USSW。该方法较基于K近邻思想的重采样方法可以有效降低采样时间,而且对数据集样本的形态信息利用的更加充分。具体来说,USSW方法的改进思路主要为两点:1.不同于K近邻计算两个类别中样本两两之间距离,USSW方法先计算少数类类中心,再计算所有样本到该类中心的距离。这种方式相较于K近邻思想的采样方法可以减少计算时间。2.将数据的“形态”引入到不平衡数据分类问题中。大多数的采样方法都只用了样本间距离这个信息,对数据的分布信息未能充分利用。而样本距离的分布信息可以在一定程度上反映出原数据集的分布情况。通过对8组现实生活中的不平衡数据集进行实验,以F1值、G-means值与AUC值这三个综合性指标作为分类效果的评价标准得出结论:1.可以通过数据的形态信息初步判断样本数据质量问题。2.USSW方法较Nearmiss方法能有效提升对不平衡数据的分类效果且结果更加稳定。3.USSW方法的采样速度优于Nearmiss-2。综上,USSW方法较Nearmiss方法在分类效果和速度上都有一定提升。
其他文献
中国上市公司并购市场只有27年的历史,伴随着资本市场的发展,近几年展现出了非常活跃的情形。从宏观经济角度看,企业连续并购可以促进行业整合,优化产业结构、推动企业升级等诸多特点。就企业而言,通过连续并购能够获取优质资源、增加市场份额、提升实力等诸多优势。在中国经济增涨趋于平缓,传统行业产能过剩,资源利用率不足的情况下,国家出台了一系列鼓励企业并购的政策。同时企业并购作为国企改革的一种常用方式,国有企
随着“互联网+”、大数据等信息技术的快速发展,网络已经深入生产、生活的方方面面,信息技术在给用户带来便利的同时,个人信息保护问题也相应而生。近些年来,我国互联网产业发展迅猛,各行各业均将信息数据视作最重要的战略资源之一,其中不乏大量的个人信息。由于法律的滞后、监管的缺失,个人信息泄露问题日益严峻,以非法买卖个人信息为上游犯罪的案件已然呈现上涨态势,最为突出的就是诈骗犯罪。虽然,公安部门多次开展个人
近年来,股权质押作为一种备受追捧的质押式债务融资手段使得企业的融资渠道进一步放宽,其具有良好的流动性与变现性,能够帮助控股股东快速获取资金,作为融资手段起着非常重要的辅助作用。然而,由于中国市场“一股独大”、资本市场相关法律法规不够完善、市场监管水平有待提高的现实背景,控股股东股权质押究竟对公司有何影响尚未有明确的结论。因此,在这样的背景下,本文将控股股东股权质押作为研究主题,以投资者视角为切入点
金融是国家重要的核心竞争力。证券公司作为金融三驾马车之一,是资本市场的坚实力量。证券公司业务一般分为多个板块,其中经纪业务作为最传统的业务,占据证券公司业务发展的重要地位,创造利润占证券公司总利润的绝大部分比例,是证券公司开展基本经营活动的重要基础。随着金融对外开放和资本市场的自我成长,证券经纪业务市场竞争日益加剧。为赢得竞争,优化营销策略是证券企业必须采取的手段之一。同时,随着数字技术飞速发展,
近年来,我国出于促进节能减排、降低石油进口依赖等目的,大力推广新能源汽车。在得到国家政策扶持后,新能源汽车及其产业链得到了飞速的发展。在可预见的未来十年内,新能源汽车产业链中相关行业景气度都将持续高涨。基于这样一种确定性,锂行业作为其上游产业链中的重要组成部分,受到了资本市场的热点关注。目前,随着新能源汽车的不断发展,锂行业相关上市公司股价也应声上涨。在这种背景下,对锂行业相关上市公司的股权价值评
随着我国医疗体制改革的深化,推进健康中国建设,公立医院有力保障全民健康,但是医疗行业的市场化竞争逐步加剧,一方面要提升公共开支的效率,另一方面公立医院要面临更大的行业竞争和挑战。这就要求公立医院建立规范化、精细化、科学化的现代化医院管理制度,实现个性化的管理。而政府采购作为公立医院与市场经济主体进行交易的主要方式,在财政支出的比重呈增长趋势。内部控制作为公立医院防范经济活动中的财务风险,维护医院合
近年来在政策的大力支持和有效指引下,我国的职业足球联赛得到了快速的发展。教练员作为职业球队的灵魂人物,是俱乐部的核心人力资源,对球队的管理和发展发挥着举足轻重的作用。教练员一旦发生变更,所造成的影响十分剧烈。教练员变更事件在国内职业联赛中高频次的发生,其背后的合理性和影响因素引人深思。因此,为了探求影响教练员变更的主要因素,以及教练员普遍的生存规律,本文选取中超联赛的教练员为研究对象,围绕教练员变
商业赞助不仅逐渐成为大型体育赛事最重要的来源之一,还是企业在市场竞争中的崭露头角的重要手段。早在2002年时盐湖城冬奥会的赞助收入就已经高达8.76亿美元,占总收入16亿美元的55%[1]。但体育赛事与赞助品牌的合作关系并不总是稳定的,即使是奥运会也存在赞助周期较短的企业。例如:2003年加入TOP计划联想集团在2008年就选择了退出。稳定的赞助合作关系对于赛事和赞助商双方无疑是十分重要的,国外已
近年来,我国的创新驱动发展战略取得了显著成效,在创新发展新动能的引导作用下,高质量的发展得到了持续的提升。科学技术是第一生产力,我国虽然是创新大国,却不是创新强国,我国每年的科技经费投入规模稳步增长,但是与发达国家相比仍然存在一定的差距,尤其是在基础研究方面的成就。最近,我国面临着严峻的外部市场环境,美国一系列制裁措施反应了我国在核心技术上的突破带来的威胁和冲击,同时也说明了创新能力对一个国家、一
客户服务中心属于劳动力密集型行业,人力成本在运营成本中占比较大。客服工作人员作为客户服务中心的主要组成部分,其流失频率、规模会对企业运营成本等造成较大影响。随着现代社会经济的发展进步,人们对于自身权益愈加重视。在这样的环境背景之下,不同行业对于客户服务业务的投入逐渐增多,客服工作人员的工作机会也逐渐增多,相应来说,劳动力市场竞争增大。一方面,由于银行业特别是国有银行的自身薪酬制度有一定的相对固定,