论文部分内容阅读
近年来,互联网金融快速发展,金融业务的创新模式层出不穷,极大促进了金融业的发展和繁荣。P2P网络借贷作为一种新兴的互联网金融模式,其小额信贷、自主选择、自由搭配的借贷形式能够满足广大个体与小微企业的借贷需求,对于完善我国金融体系、缓解民间资本投资和小微企业融资需求具有重要意义。然而,在其方便、快捷的背后,P2P网络借贷也暴露出越来越多风险和监管问题,平台倒闭、跑路、提现困难等欺诈事件频繁发生,严重阻碍行业的健康发展。因此,本文针对P2P网贷平台欺诈识别问题,提出一种自适应代价敏感加权集成算法,构建代价敏感的决策树多分类集成模型,实现P2P网贷平台欺诈识别与预警,为政府监管和用户投资提供决策支持和参考。本文在综述P2P网贷平台欺诈识别特征和方法的基础上,对非平衡多分类问题展开研究,提出一种面向P2P网贷平台欺诈识别的集成算法,主要包括以下内容:(1)系统归纳和总结了P2P网贷平台欺诈识别研究现状,分析了数据不平衡和误分类代价敏感的特征,并指出现有欺诈识别方法的主要问题。(2)深入研究了应用决策树算法进行欺诈识别的优势与不足,分析应用C5.0决策树算法解决P2P网贷平台欺诈识别所存在的问题,以及问题产生的原因。(3)针对现有方法的不足,提出了一种自适应代价敏感加权集成算法ACWEA,具体改进点包括以下三个方面:第一,提出加权信息增益率作为属性选择的标准,除了考虑属性所包含的信息量,更强调识别欺诈的重要性,体现属性对不同类别的贡献差异。第二,在C5.0决策树算法的基础上引入代价矩阵,以最小化误分类代价为目标,并针对其静态学习机制,提出代价空间、目标函数以及搜索方法,实现自适应代价敏感学习,提高模型的泛化性能。第三,针对单分类器解决多分类问题存在的不足,采用逐步一对多方法将多分类转化为多个二分类问题,构建面向非平衡多分类问题的集成模型,提高各类别的识别效果。(4)从P2P行业门户网站采集我国现有P2P网贷平台的大规模数据,以2890家真实P2P网贷平台数据为样本进行模型测试,与多种现有主流方法进行比较和统计检验,验证了ACWEA集成算法解决P2P网贷平台欺诈识别问题的显著优势。