信用卡欺诈检测的机器学习方法比较

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:a348956376
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信用卡起源于二十世纪初的美国,并于二十世纪六十年代开始流行。在1985年中国也开始使用信用卡。信用卡在全球范围内都非常流行,有无数的信用卡使用者。信用卡因其安全、快捷、方便的特点广受用户的喜爱。根据信用额度进行提前消费,定期还款的方式也很符合现代人的消费习惯。随着全球经济的高速发展和互联网的兴起,信用卡在互联网的使用也越来越普及。但是随之而来的信用卡欺诈也给信用卡业务的发展带来了阻碍。全球每年因信用卡欺诈而损失了数百亿美元。建立信用卡欺诈检测系统对于信用卡业务的发展十分重要。本文对比了时下热门的几个机器学习中的信用卡欺诈检测模型。逻辑回归由于在二分类问题中效果很好,训练速度快,可以计算出特征的系数,可解释性强这些优点,被广泛的应用在信用卡欺诈检测中。决策树被应用于信用卡欺诈检测则是因为于其容易可视化,在分类问题中较容易理解,而且决策树受数据本身的影响较小,即不需要对数据做特征选择,本身的建模的方向也是选择最优的特征。但由于逻辑回归有欠拟合的风险、决策树有过拟合的风险。所有本文也同时用一些集成算法来对信用卡欺诈进行检测。随机森林、Adaboost-Tree和GBDT都是以决策树为基学习器的基分类器,所以他们也继承着决策树的优缺点,但相比于决策树有更高的精度。由于信用卡欺诈数据是一个高度不平衡的数据,在本文所用的数据中,28万笔信用卡交易只有400多例是信用卡欺诈交易。样本高不平衡容易使得分类器在训练时朝着多数类的方向进行,为此本文采用了两种采样方法来平衡样本集。通过分类器和采样方法的一一组合,再通过代价敏感矩阵确定了分类的阈值。通过对比,BSMOTE-Adaboost分类器对于信用卡欺诈检测的效果最好,在召回率87%的情况下,精确度也能达到92%。但由于Borderline-SMOTE对训练样本进行了“过采样”,使得训练样本成倍的增加,再加上boosting算法本身的运算速度也比较慢,导致BSMOTE-Adaboost的运算时间是所有算法中最慢的。相比于无重采样的随机森林算法,其运算时间大概是随机森林算法的5倍以上。且随机森林算法的召回率也有82%以上,精确度甚至能达到97%以上。所有如果考虑运算时间,随机森林算法对于信用卡欺诈检测也比较适用。
其他文献
<正>湖南省社会科学院副院长贺培育近期撰文指出,我国传统地区产业发展路径多遵循土地融资、园区建设、招商引资、债务偿还的循环模式,但由于政府过度依赖土地经营、对产业发
模具表面精加工是模具加工中未能很好解决的难题之一,目前在国内精加工还是以手工研磨为主,手工研磨抛光存在着周期长、品质不稳定的缺点,这也制约了磨具制造的发展。本文结
目的:观察牙周基础治疗对肾透析伴牙周炎患者的临床疗效。方法:选取28名肾透析伴有牙周炎患者进行牙周基础治疗,治疗前及治疗后6周记录牙周菌斑指数(PLI)、牙周袋深度(PD)、
随着信用卡的推广和普及,越来越多的人享受到了提前消费以及无纸消费的快乐,给消费者和商家都提供了极大的方便。但是欺诈问题一直伴随着信用卡的诞生延续到现在,每年全球由
概括了国内外大采高综采技术的现状与未来趋势,深入探析了综采面矿压显现规律不同开采方式与不同采高条件下顶板破断特征、高工作阻力条件下上覆岩层的运动规律,解决了大采高
随着油田开发进入中高含水期,油田开发难度加大,如何确保主力油田的稳产、增产一直是我们工作的主题.要合理开发主力油田,数据是重中之重.
Ⅱ型糖尿病和肥胖已成为在全球范围内流行的慢性疾病,严重威胁身体健康。饮食中膳食纤维的缺乏,会影响肠道菌群组成,引起慢性炎症疾病的发生。膳食纤维在肠道微生物作用下发
<正>一、工程概况孝义中学体育场看台挑棚的支座是由钢筋混凝土柱、梁组成的框架结构,分为北区、中区、南区三部分,南北区均由5根20.906m高的柱和1根65.6m长的梁组成,梁跨度1
近年来,我国农村土地的“沉睡资产”没被唤醒,农民拥有土地资产却不能带来收益,国家正尝试通过宅基地制度改革、农村土地集体经营性建设用地入市改革和农村土地征收制度改革