论文部分内容阅读
随着电子支付平台交易量、虚拟货币的发行和流通量越来越大,涉及的账户越来越多,导致沉淀资金、洗钱、套现、作弊等信用问题愈加突出,已逐渐成为制约电子商务发展的最大瓶颈。由于信用违约的行为形式多样,技术手段高明而隐蔽,具有很大的差异性和与时俱进。目前电子支付公司采用一系列的安全产品更多的是防范,而缺少主动出击,单靠经验和人工审核办法还很难以捕捉。因此,电子支付公司需要加强技术,主动有效地防范和化解信用风险,提高企业信用甄别与风险管理的水平和能力。
本文从“作弊用户希望用较少的钱、短时间把信誉提高”的心理角度考虑,给出了作弊账户定义,并对作弊账户和正常账户相比更具有批量注册、交易金额非常低、交易的时间非常集中等特点。
针对作弊帐户识别问题,Lach(1999)指出可以利用数据挖掘中基于ID3和C4.5的树分类技术识别和理解的作弊行为模式,定位高作弊嫌疑的账户,缩小范围后再通过人工审核,从而较精确捕捉到作弊账户。并基于一电子商务公司作弊的简单实例数据,利用树算法ID3(Mitchell,1997)和C4.5(Quinlan,1993),建立识别模型。虽然ID3和C4.5算法对训练样本集的学习中尽可能多地挖掘信息,但生成树分枝较多,规模较大。为了简化树算法,提高效率,又出现了根据GINI系数作为分裂规则的CART算法,其结构简单、易于理解的二叉树。再考虑到现实中的数据质量问题,鉴于树算法对孤立点有免疫力和自动处理缺失数据的优点,所以选择CART树算法作为主要建模工具。另外,单一CART树会具有不稳定性的缺点,可以通过组合技术,提高稳定性和精度,所以便有了多树的TreeNet算法(Friedman,2002)。
本文以电子支付平台数据集作为实例,把作弊账户和正常账户进行对比分析,基于逻辑回归、CART和TreeNet算法建立识别模型,通过在验证数据集上比较,发现属于非参数方法的CART和TreeNet算法好于属于参数方法的逻辑回归算法,多树TreeNet模型在性能上好于单一树CART模型,但模型解释性没有这么好。考虑到系统的实现和业务解读,通常在不牺牲精度的情况会优先选择CART模型。
最终模型的结果可以翻译成通用语言(比如C和JAVA语言),整合到营销平台和相应的分析报告中,以便日后的分析和日常运营决策。