基于邻近重采样和分类器排序的信用卡欺诈检测中不平衡数据研究

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:sun8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信用卡交易的普遍化,导致全球信用卡交易欺诈愈发严重,每年造成的损失高达数十亿美元。有效的信用卡欺诈检测算法可以有效地降低财务风险和金融风险。这种算法在很大程度上依赖于机器学习和数据挖掘技术,但由于信用卡交易数据分布并不均匀,使得设计欺诈检测系统具有挑战性。这种非静态分布使得正常的信用卡交易数据远多于欺诈交易数据,一般称之为不平衡数据。这种不均衡的数据分布通常会导致分类器被多数类(合法交易)数据所淹没,并且会因为不能预测少类数据(欺诈性交易)而失去预测功能。为解决这个问题,一种可能的解决方案是在数据级使用预处理技术。预处理技术是数据挖掘任务的关键步骤,处理后的数据直接应用于分类技术从而建立预测模型。预处理过程包括数据清洗,数据集成,数据变换,数据重采样等。本文主要从数据清洗和数据重采样两个方面进行研究。噪声数据指存在异常变化或错误的数据,会严重影响数据分类性能。重采样则是用于产生构建预测模型的训练数据,预测模型的质量很大程度上取决于在模型的训练中使用什么样的样本。重采样技术通过减少多数类(欠采样)或增加少数类(过采样)来产生均衡的训练集,通过这样的平衡训练集可以建立性能更高的预测模型。现有的大量研究都致力于研究不均衡数据的欠采样或过采样技术,主要分为随机抽样和固定抽样。随机技术通过随机重新采样数据,而固定抽样根据数据分布特征减少或复制数据。然而,这些传统技术在发挥优势的同时,也会危害分类器的性能,导致多数类的潜在信息消除或生成大量精确的小类副本导致分类器过拟合问题。同样,固定抽样因为没有去除噪声样本,导致关键数据被分类器忽略,例如靠近决策边界区域的数据。为克服随机抽样和固定抽样的缺点,本文提出了新的重采样方法,并描述了一种从数据中去除噪声样本的方法,以提高分类器的预测精度。本文的目标是提出能够克服现有缺点的重采样新方法,即i)消除最相似模式并保持数据原始分布的新型欠采样方法,ii)避免生成属于少数类实例相似副本的新型过采样方法。为此,本文使用了一种以马氏距离为中心的新的相似性测量方法。这种相似性测量与传统的最近邻度量不同:新方法使用以数据为中心的方法来寻找关键样本,而其他固定重采样技术则使用以数据质心为中心的协方差矩阵进行相似性度量。此外,本文在两个层面上对多数类进行消除,即处于边界上和边界外的样本。类似地,采用两步法对少数类进行过采样,并根据他们的邻近度和学习难度给样本赋予权重。这样,在决策域附近可以产生更多样本来提高少数类的预测精度。根据ROC曲线(AUC),F值和G均值指标进行检验分类器性能,新的重采样方法是可靠的,在处理具有高召回率的不均衡信用卡数据是有效的。分类算法应用于信用卡欺诈检测已有数十年,信用卡欺诈数据分布不平衡导致分类准确率下降,并且各种算法在不同的度量指标下表现迥异。由于不同的性能评价方法会产生不同的评价结果,对这些分类算法排序是相当繁琐的。信用卡欺诈数据与非静态失衡比率具有内在的不平衡性,分类器可能不能给出满意的结果。现有研究提出了很多对这些分类器进行排序方法。本文提出了一个框架,旨在寻找类别失衡对分类器性能的影响,并根据它们的偏度水平进行排序。本文使用三种多目标决策(MCDM)方法对分类器性能从好到坏进行排序。结果表明,根据数据分布选择合适的分类器有助于提高欺诈交易行为捕获率。
其他文献
目的:研究老年SD大鼠睾丸类固醇急性调节蛋白(StAR)、17β-羟类固醇脱氢酶(17β-HSD)和芳香化酶(P450arom)的变化,探讨衰老对睾丸类固醇合成的影响.方法:用人绒毛膜促性腺激
随着信息化的高速发展、网络的普及,企业财务管理者们迫切需要一种一体化、全面化、系统化的管理模式来取代以往传统、繁琐的财务管理体系,ERP管理系统应运而生。随着市场经
螺杆钻具作为以钻井液为动力的一种容积式马达,是国际上石油钻井过程中最常用的一种井下动力钻具。随着我国在中西部地区直井、定向井、大斜度井以、水平井、丛式井以及多底
转基因食品的发展与人类的生命健康、物种的生存繁衍、环境的持续发展密切相关。转基因食品的应用中,人们最关心的就是转基因食品的安全性问题,它所带来的风险具有深远的伦理意
桩侧摩阻力作为影响异型桩承载能力的重要因素,是当前异型桩实际应用的关注热点。本文通过一些影响因素,如异形效应、深度效应、施工工艺、成桩效应、桩侧和桩端土体性质,以
滑模作为一种先进而成熟的施工工艺,在建筑行业广泛应用,但在水利工程改造中,传统的坡面滑模机械不能满足施工要求,为此,作者研制了一种经济实用的滑模施工机械,并对其相应的
该实用新型公开了一种车用液压机械手,涉及液压机械手结构。由四个机械手组件和一个双活塞杆液压缸构成;在双活塞杆液压缸两端的活塞杆端部各固定连接有一个横杆,四个机械手
以TI公司基于达芬奇技术的媒体处理器TMS320DM6467作为核心处理器。该设计根据TMS320DM6467内部的高清模块与VPIF视频接口,采用高清视频解码器TVP7002与高清/标清视频编码器A
通过实际加工分析FDM式3D打印机在打印过程中出现的底部翘曲、拉丝、出丝不畅和错位问题,寻找问题出现的原因,并提出解决方案。
在食品工业,双水相萃取技术与传统萃取相比具有很多优势。该文介绍双水相萃取技术及其原理、特点,综述双水相萃取技术在食品工业中应用,并展望其应用前景。