基于lasso—logistic的互联网征信模型研究

来源 :经营管理者·中旬刊 | 被引量 : 0次 | 上传用户:hawkzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着个人小额网络消费信贷的爆发式增长,通过互联网数据分析实现快速准确征信成为一个重要问题。互联网征信面临的一个挑战是数据变量众多带来的“维灾难”问题,而目前互联网征信中常用的logistic模型在高维数据时无法取得令人满意的效果。本文将lasso-logistic引入互联网征信模型来解决这一问题,并利用互联网小额信贷平台数据进行实证研究。实证研究中,以AUC(Area Under Curve)值为评价指标,lasso-logistic模型优于全变量logistic回归模型。
  关键词:个人信用评分 lasso-logistic 特征选择 实证研究
  一、引言
  面向个人消费的互联网小额信贷近年来风生水起。由于互联网小额信贷无需抵押和担保,唯一依靠的就是个人或者企业的信用,因此建立征信模型极其重要。传统征信模型数据采集成本高,数据来源单一,不能全面且准确地刻画客户的信用情况。而互联网征信模型借助互联网平台的海量信息可以帮助我们快速准确地完成这一过程。根据互联网平台的海量数据建立个人征信模型,基于模型来准确划分新客户的信用等级可以有效地控制贷款对象的信用风险并更好地进行客户关系管理。作为信用风险评估的基础和核心,征信模型的构建显得十分必要。
  互联网征信模型有一大特点。互联网征信的变量指标多。随着互联网的快速发展,可以用来建立征信模型的变量指标呈指数增长,相比于传统征信,互联网征信需要处理一个更加庞大的评价指标体系,且数据呈现动态变化的特征。如何从众多指标中,选出对个人信用影响最大的少数关键指标,成为建模过程首要难题。logistic 模型是现有征信的一个基本模型,而该模型在处理高维数据时无法取得令人满意的建模效果。针对互联网征信模型的这一特点,本文将lasso-logistic模型引入征信问题,将其与传统全变量logistic回归模型进行对比。实证研究表明lasso-logistic模型能有效解决“维灾难”问题,它比传统全变量logistic回归模型具有更高的预测精度和更低的误分类成本。
  二、文献综述
  征信模型目前主要的方法有统计方法和机器学习方法,统计学習方法有logistic方法、多元判别分析、多元线性回归、数学规划法等,机器学习有SVM、神经网络、决策树等。其中 logistic模型由于预测准确率高、计算简便而被广泛使用。例如,于立勇等人通过logistic回归模型构建了违约概率的测算模型。大量的实证研究证明,利用logistic模型解决征信问题有很强的实用性。但是本文研究的互联网征信需要分析一个庞大的评价指标体系,数据量大,研究难度更大,传统的全变量logistic模型无法解决多重共线性问题,会接受大量冗余变量,模型的可解释性低,建模效果欠佳。如何通过特征选择解决变量过多给logistic模型所带来的问题,是一个值得深究的课题。
  lasso是一种嵌入的特征选择方法。1996年,Tibshirani 首次提出了lasso方法,通过将部分变量的系数压缩为0可以同时实现变量选择和参数估计。之后,涌现出众多将lasso应用于一般线性回归模型的研究。2001年,Fan 和Li将lasso应用于广义线性模型,提出惩罚似然函数的方法。Shi 等人、 Uh 等人以及 Park and Hastie将lasso与logistic回归相结合,为lasso的应用做出了巨大贡献。lasso-logistic 回归模型估计系数是在对数似然函数上加一个惩罚项,本文研究lasso在具体征信问题中的应用效果。
  三、实证研究
  1.数据说明。本文数据是中国某互联网小额消费信贷平台的商业数据。该数据集共有24837条个人记录,每条记录包含顾客个人情况属性和顾客“违约”、“非违约”标签变量,共1112个变量。个人情况属性涵盖个人基本信息、信用交易信息、特殊交易信息及部分网络交易信息。个人基本信息包括个人身份信息和职业信息等;信用卡交易信息由信用卡明细信息、卡类型、信用额度、共享授信额度、最大负债额度、授信额度、透支余额和已使用额度、账户状态、信用卡逾期期数和逾期额度、未还最低还款额次数等数据来反映;特殊交易信息记录是指在信贷业务过程中发生的展期、延期、担保人代还、以资抵债等方面的有关信息。在该数据集中共22739个“非违约客户”、2098个“违约客户”。
  数据预处理是建立模型预测的关键,直接影响最终预测结果的准确性。首先,我们删除了缺失值超过50%的变量,采用每列均值对剩下的577个变量进行插补。然后为解决变量严重左右偏及消除量纲对数据结构的影响,对数据进行对数化纠偏及中心化处理。最后,依据客户的所属时间段,我们将数据集随机划分为训练集和测试集,训练集包含20824个记录,剩下的4013个记录作为测试集。在训练集上训练模型,在测试集上检验模型效果。
  为了验证lasso-logistic模型的有效性,本文将传统的全变量logistic互联网个人征信模型作为对比基准。
  2.实验结果分析与讨论。构建lasso-logistic模型时,在调整惩罚系数 的取值过程中,AUC值随值调整而变化。当取值为0.0111时,AUC值最大。因此lasso-logistic模型最终选择的值为0.0111。根据两模型的ROC曲线图所示,lasso-logistic 模型的ROC曲线在logistic模型的ROC曲线上方,说明在特异度相同的条件下,lasso-logistic模型的灵敏度高于logistic 模型,而灵敏度相同的条件下,lasso-logistic 模型的特异度也高于logistic 模型。对比两模型的AUC值,lasso-logistic 模型的AUC值为0.6969,而logistic模型的AUC值仅有0.5411,lasso-logistic 模型的AUC值高于logistic模型。从模型的可解释性来看,logistic模型没有剔除变量,将所有解释变量作为影响互联网征信风险的因素。而lasso-logistic模型剔除了562个变量,最终只剩下14个变量,其比传统全变量logistic模型可解释性更强。据此,我们得出结论在只以模型精度为衡量指标时,基于互联网信用评分的lasso-logistic模型比传统全变量logistic模型具有更强的预测能力。   四、結语
  本文将lasso-logistic模型引入互联网征信,将其与全变量logistic回归模型进行比较分析,结果表明lasso-logistic模型具有更高的AUC值以及更强的可解释性。该比较结果反映出传统logistic回归模型因选择过多冗余变量及不相关变量而导致较差的预测效果,而lasso具有特征选择功能,能筛选出重要变量,避免多重共线性,使得模型具有更好的预测表现。
  参考文献:
  [1]石庆焱, 靳云汇. 个人信用评分的主要模型与方法综述[J]. 统计研究, 2003, 20(8):36-39.
  [2]朱晓明, 刘治国. 信用评分模型综述[J]. 统计与决策, 2007(2):103-105.
  [3]Khashman A. A neural network model for credit risk evaluation.[J]. International Journal of Neural Systems, 2009, 19(4):285-94.
  [4]Davoodabadi Z, Moeini A. Building Customers` Credit Scoring Models with Combination of Feature Selection and Decision Tree Algorithms[J]. Advances in Computer Science An International Journal, 2015, 4(2).
  [5]于立勇, 詹捷辉. 基于Logistic回归分析的违约概率预测研究[J]. 财经研究, 2004, 30(9):15-23.
  [6]Tibshirani R. Regression shrinkage and selection via the lasso: a retrospective[J]. Journal of the Royal Statistical Society, 2011, 73(3):273–282.
  [7]Fu W J. Penalized Regressions: The Bridge versus the Lasso[J]. Journal of Computational & Graphical Statistics, 1998, 7(3):397-416.
  [8]Fan J, Li R. Variable Selection via Nonconcave Penalized Likelihood and its Oracle Properties[J]. Journal of the American Statistical Association, 2001, 96(456):1348-1360.
  [9]Shi W, Lee K E, Wahba G. Detecting disease-causing genes by LASSO-Patternsearch algorithm[J]. BMC Proceedings, 2007, 1(1):S60.
  [10]Uh H W, Mertens B J, Wijk H J V D, et al. Model selection based on logistic regression in a highly correlated candidate gene region[J]. BMC Proceedings, 2007, 1(1):S114.
  [11]Park Y M, Hastie T. L1 regularization path for generalized linear models and cox proportional hazards model[J]. Cancer, 2013, 104:290-298.
其他文献
摘 要:自媒体现在是当代中国发展面临的高潮时期,在很大程度上提高人们认识世界、改造世界能力,同时也是对高校的安全、校园的稳定和大学生的取向提出严峻挑战。特别是在高校,以在校大学生为主体的网络群体,几乎无人不在上网、无时不在上网、无处不在上网,其知识的获取、信息的传递、思想交流等活动已经突破的传统意义上课堂知识和专业素养、校园甚至身份的传统边界。同时,社会上的舆论和意识形态领域许多新情况新问题也越来
期刊
摘 要:本文从文化建设资金投入、农民群众参与文化活动的积极性、农村文化活动的多元化等方面分析了当前我国农村文化建设取得的成就,有坚持实事求是的精神,分析了当前我国农村文化建设中面临的多方面困难和问题,例如:部分乡镇村扶持引导力度不够;文化建设资金投入不足;文化资源分配不均衡,文化活动频率和效果失衡;农村文化大院队伍整体素质偏低等等。针对这些问题,本文立足以农村文化建设促进农村经济发展的视角,就新时
期刊
摘 要:廉洁文化建设以崇尚廉洁,摒除四风为导向,融合了新时代的价值理念,规范行为和社会风尚为一体,总体反映了当代社会中人们对于廉洁的基本认识,基本理念和精神追求等。加强企业廉洁文化建设有利于推进反腐倡廉风气的形成,营造以廉为荣,以贪为耻的企业氛围,保障企业领导干部人员廉洁从业的基本道德风尚意识。廉洁文化是企业文化建设和廉洁文化建设相互结合的产物,也是企业文化建设的重要组成部分,是提升国有企业党风廉
期刊
摘 要:疾病预防控制中心在对各种疾病进行防治、监测时,留有大量的档案数据、资料等,对这些档案资料的管理对整个疾控中心而言较为重要。本文通過分析疾控中心档案管理工作中存在的问题和不足,结合笔者多年管理经验,提出几点改进策略,以促进疾控中心档案管理工作前进与发展。  关键词:疾控中心 档案管理 问题 应对策略  疾控中心承担着对残疾、疾病预防的重要使命。疾控中心,顾名思义,就是疾病控制中心,疾病中心档
期刊
摘 要:随着党和国家提出“五位一体”的建设总布局,生态职能被纳入政府的职能体系,成为各界共同关注的重点和热点。然而地方政府履行生态职能有许多制约因素和深层次的原a因。履行生态职能是地方政府推进生态文明建设的突破口,需要从全新的生态文明观;健全生态法治体系;加快体制改革转型创新;鼓励公民参与等方面寻找新的途径。  关键词:生态职能 地方政府 生态文明  一、确定生态职能及其特性  随着党的十八大首次
期刊
摘 要:学生手册作为高校学生生活和学习的指南,一直被认为是学校管理非常重要的内容。但是,国内的学生手册编撰基本局限于规章制度的罗列,使之成为法典式的教条,经常受到学生的忽视。本人通过对英美顶尖高校学生手册的研究,从其共性和特性出发,发现海外名校不仅强调规章的重要性,更加在于灌输一种人文关怀。  关键词:学生手册 英美高校 人文关怀 规章制度  一、研究现状及问题的提出  教育系统的一切管理活动,都
期刊
摘 要:社区是广大人民群众的重要生活场所,城市社区建设与社区居民的生活质量息息相关。根据我国城市社区建设的现状和主要困境,主要从建立新型的以行政为导向、以自治为基础的新型管理体制,提高社区居民共同参与社区建设的意识,完善社区基础设施及社区服务功能等方面入手,引导和建立符合我国国情的新型城市社区。  关键词:城市社区 问题 对策  一、引言  由于现代化因素所带来的冲击,近代欧洲在城市化进程中也曾经
期刊
摘 要:新疆自古以来就是一个多民族、多宗教并存的地區,各民族和睦共处是社会团结、稳定发展的关键。民族事务具有复杂、敏感的特征,正确合理的处理民族工作尤为重要。梳理历来新疆民族工作的贡献,总结实践经验,找出当前新疆民族工作的难题,探索切实可行的发展路径,对进一步做好新疆民族工作、促进社会和谐发展具有重要的现实意义。  关键词:新疆 民族工作 贡献 路径  民族工作主要包括贯彻执行党和国家的民族政策,
期刊
摘 要:社区垃圾分类对生活垃圾减量化、资源化、无害化意义重大,也是建设友好型社会的重要举措。而回顾分析近些年我国城市社区垃圾分类处理的实际情况,不难发现前端垃圾分类不到位,后端大力处理不佳现象的存在,导致社区垃圾分类处理不佳。基于此,本文将基于制度主义理论,对城市社区垃圾分类存在的结构性困境予以分析,在此基础上探究切实有效的解决措施,希望能够解决城市社区垃圾分类不清的现状,为建设良好城市,促进社会
期刊
摘 要:社区网格化管理的核心就是在复杂多变的社会环境中,实现社会资源共享、信息交流无障碍、多部门间协同合作、提高社区服务和管理效率,以人为本,为社区居民提供更好的服务。  关键词:六盘水市 社区网格化 模式  当今的社会是一个信息社会、网络社会、舆情社会,这对六盘水市的社会管理提出了新的要求。社会的网络结构、群体性组织的敏感化、个体需求种类的多样化和复杂化,对社会管理提出了新的挑战。基层社会民主化
期刊