基于生成对抗网络的结构化数据不平衡分类 ——以在线支付风险预测为例

来源 :西南财经大学 | 被引量 : 1次 | 上传用户:hwyvvv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实生活中,存在大量的样本类别不均衡数据,比如信用卡欺诈数据、罕见疾病数据等。基于不平衡数据的分类,称为不平衡分类,分类器倾向于学习多类样本的特征而忽视少类样本的特征,导致所训练出的分类器易将样本都预测为多类样本,难以识别少类样本,而少类样本往往具有重要价值。现有的解决不平衡分类问题的方法,主要分为两个方面:数据层面和算法层面。数据层面的方法,通过对不同类别的样本数量进行更改,使得数据集中各类别的样本数量变得相对平衡;算法层面的方法,通过增加少类样本的权重,提高分类器在训练过程对少类样本的重视程度。本文提出一种新的数据层面的方法。将生成对抗网络(Generative Adversarial Nets,简称GAN)从图像等非结构化数据迁移到支付风险数据等结构化数据,以GAN的变种WGAN-GP作为数据增强模型,增加少类样本的数量,使得样本类别达到平衡,以解决结构化数据不平衡分类问题。为验证本文所提方法的有效性,本文使用真实的用户支付行为数据进行验证,并采用Precision、recall(TPR)、TNR、F-measure、G-mean等五个指标作为不平衡分类的评价指标,对所提算法的性能进行度量。同时,采用传统不平衡分类中的SMOTE算法、Bootstrap算法作为对比实验。实验结果表明:本文所提的方法,相比原不平衡数据集,所训练出的分类器的性能有一定提升;与SMOTE算法、Bootstrap算法相比,本文所提方法能够在提升对少类样本的识别能力的同时,保证多类样本的识别精度不下降。
其他文献
自2018年开始,我国的债券市场发展得越来越快,成交量也在持续增加,在这个进程中,非国有企业债券信用风险不断加大的问题应当引起重视。国有企业因为有政府的隐性担保,所以债券信用风险比较低;而非国有企业大多为自然人所有,缺乏大股东的支持和用于抵押的资产,融资环境较为紧张,非国企债券的违约概率远大于国企债券。货币政策是我国调控宏观经济的主要政策之一,从近几年债券违约事件频繁发生的债券市场现状来看,货币政
华南板块东南部广泛分布晚中生代岩浆岩省,其主要岩石类型包括花岗岩、玄武岩、流纹岩及火山碎屑岩等。近几十年来,这些岩石的年龄、成因和地球动力学背景已成为中外地质学家们研究的焦点。但是目前国内外的研究重点主要是该区的晚中生代侵入岩,对于同时期形成的火山岩及火山碎屑岩的关注相对较少。本研究选择华南东南部的福建省永泰-园庄地区的近北东向展布的巨型环状火山构造作为研究对象,对该构造中发育的较为典型的晚中生代
保护投资者是我国证监会的根本使命,对投资者的保护有利于稳定金融市场、提高市场运行效率。在我国市场结构高度分散的情况下,中小投资者保护的问题更为突出,但我国作为新型金融市场,法律保护机制尚不健全,中小投资者难以自下而上使用法律武器保护自身权益,此时,监管机构更应主动倾听中小投资者诉求,为其提供针对性的保护,弥补法律体系不足的缺陷。通常情况下,我国监管部门会关注市场舆情辅助监管,在市场舆情方面,已有研
随着并购市场的快速发展,并购的风险日益显现出来。此时业绩承诺作为一种估值调整机制应运而生,证监会规定被并购方大股东对标的资产未来的业绩进行承诺,此后并购业绩承诺便逐渐成为并购重组的“标准配置”,应用越来越广泛。但是随着业绩承诺制度的发展,其存在的问题也日益凸显,如为了实现并购交易把高业绩承诺作为提升估值的一种手段来向市场传递出被并购企业未来发展优良的信号,造成了“双高”现象。以及后续业绩承诺未达标
随着石油工业的发展和全球对石油需求量的加大,针对低孔、低渗致密砂岩油气藏的研究已成为油气工业的重点研究领域。本次论文研究的区域库车坳陷白垩系储层正是低孔、低渗致密砂岩储层,而且个别井受油基泥浆滤液侵入的影响,造成电阻率测量失准,储层流体识别面临较大困难。为了满足研究区开发建产上产的现实需求,十分有必要对油基泥浆侵入的校正和流体的识别进行研究。本文基于上述背景,主要的研究内容是油基泥浆侵入校正和流体
伴随着社会的高速发展,基础设施的广泛建设,传统的财政投资已难以满足日渐高涨的社会需求。面对这一状况,我国政府大力推广新型融资机制—PPP模式。PPP模式不仅能减轻地方政府的财政投资,还能通过其高效率机制实现项目整体经济效益最优化的目的。但PPP项目的落地实施需要物有所值这一客观的评判标准,在项目初始阶段判断PPP模式是否适合该项目的建设过程。PPP项目VFM评价目前是我国PPP项目能否落地实施的核
随着互联网的发展,电子商务平台也迅速地发展起来,直到今天,电商领域已经进入红海阶段,各电商平台之间的竞争非常激烈,而且以往的流量红利优势也正在逐渐消失,在这个背景下,淘宝上的很多卖家也面临着经营上的困境,相当部分的卖家商品销量非常惨淡,这对于卖家来说是比较致命的,如果持续下去很可能会陆续倒闭。因此本文研究淘宝网商品销量的影响机制具有重要的意义。在研究方法上,作者通过整理国内外的相关文献,以信号理论
家事纠纷是普通民事纠纷的一种特殊情况,一般的民事纠纷仅涉及当事人之间的利益,而具有伦理性、私密性、亲缘性及公益性等鲜明特点的家事纠纷,不仅涉及当事人之间的私益,还具有社会公益性。各国家事纠纷多元化解机制的建立为我国家事审判以及家事纠纷多元化解机制构建带来了新天地。2016年,最高法院在全国部分法院开展家事审判改革试点工作,由此开启了我国家事审判制度改革的序幕。在我国现有的司法体制下,本文针对河南省
党的十六大提出了建设服务型政府的概念,历经十余年,国家税务总局的纳税服务工作从最开始的一个纳税服务处,发展到每一个基层税务机关中都设置纳税服务科,纳税服务工作基本形成了自上至下的贯彻与监督。对纳税人提供标准化、便利化的服务和对纳税人权益的保护工作,不仅完成了从无到有的跨越,而且还在不断地更新、完善。提升纳税服务水平是适应当前税收征管的基本要求,纳税服务水平的高低也是最直接衡量一个国家税收征管水平的
自1994年分税制改革以来,我国税收收入进入了快速增长阶段,为了确保我国经济增速平稳运行,各级政府在发展经济过程中投入了大量资金。然而在税收收入不断快速发展的背后,征管成本居高不下的问题始终未能得到有效的解决,从数据对比上看,我国征管成本远高于西方发达国家此外,分税制以来不断发展完善形成的国税地税两大税务机关的人员数量也在不断的攀升,导致了税收征管成本的进一步提高,制约了我国税收收入的健康成长。2