论文部分内容阅读
信用卡起源于二十世纪初的美国,并于二十世纪六十年代开始流行。在1985年中国也开始使用信用卡。信用卡在全球范围内都非常流行,有无数的信用卡使用者。信用卡因其安全、快捷、方便的特点广受用户的喜爱。根据信用额度进行提前消费,定期还款的方式也很符合现代人的消费习惯。随着全球经济的高速发展和互联网的兴起,信用卡在互联网的使用也越来越普及。但是随之而来的信用卡欺诈也给信用卡业务的发展带来了阻碍。全球每年因信用卡欺诈而损失了数百亿美元。建立信用卡欺诈检测系统对于信用卡业务的发展十分重要。本文对比了时下热门的几个机器学习中的信用卡欺诈检测模型。逻辑回归由于在二分类问题中效果很好,训练速度快,可以计算出特征的系数,可解释性强这些优点,被广泛的应用在信用卡欺诈检测中。决策树被应用于信用卡欺诈检测则是因为于其容易可视化,在分类问题中较容易理解,而且决策树受数据本身的影响较小,即不需要对数据做特征选择,本身的建模的方向也是选择最优的特征。但由于逻辑回归有欠拟合的风险、决策树有过拟合的风险。所有本文也同时用一些集成算法来对信用卡欺诈进行检测。随机森林、Adaboost-Tree和GBDT都是以决策树为基学习器的基分类器,所以他们也继承着决策树的优缺点,但相比于决策树有更高的精度。由于信用卡欺诈数据是一个高度不平衡的数据,在本文所用的数据中,28万笔信用卡交易只有400多例是信用卡欺诈交易。样本高不平衡容易使得分类器在训练时朝着多数类的方向进行,为此本文采用了两种采样方法来平衡样本集。通过分类器和采样方法的一一组合,再通过代价敏感矩阵确定了分类的阈值。通过对比,BSMOTE-Adaboost分类器对于信用卡欺诈检测的效果最好,在召回率87%的情况下,精确度也能达到92%。但由于Borderline-SMOTE对训练样本进行了“过采样”,使得训练样本成倍的增加,再加上boosting算法本身的运算速度也比较慢,导致BSMOTE-Adaboost的运算时间是所有算法中最慢的。相比于无重采样的随机森林算法,其运算时间大概是随机森林算法的5倍以上。且随机森林算法的召回率也有82%以上,精确度甚至能达到97%以上。所有如果考虑运算时间,随机森林算法对于信用卡欺诈检测也比较适用。