论文部分内容阅读
在互联网和大数据技术发展的背景下,互联网金融行业在我国已有了十多年的发展历程。网贷行业身为互金行业的子类,在2007年引入中国以来经过了迅速发展、政策监管、行业洗牌等阶段,并逐步趋稳。由于目前我国的征信体系仍不完善,在面对互联网的海量数据时如何对个人信用状况进行准确的评估,有效控制信用违约风险一直以来都是行业内关注的重点问题。在当前严格的行业政策背景下,建立更为完善的网贷风控体系,对推动行业良性发展和科技金融改革创新都具有十分重要的意义。本文基于机器学习算法准确性高和线性模型可解释性强的特点,将微软亚洲研究院在2016年开源的高效算法LightGBM和Logistic回归模型进行结合:首先对所有变量计算IV值(Information Value)并筛选出区分能力较好的变量构建Logistic回归模型,再将剩余未入参变量通过LightGBM算法建模,并将该算法所得到的结果作为解释变量加入到原有的Logistic回归模型中,构建了 LightGBM-Logistic回归模型。在实证过程中,首先基于国内某网贷平台的真实交易数据进行验证,发现LightGBM-Logistic回归模型在预测精度上优于结合前的Logistic回归模型。随后将模型应用于LendingClub 2007年第一季度至2017年第二季度的数据集中,实验表明LightGBM-Logistic回归模型在结果上具有更强的可解释性。面对互联网数据覆盖面广、稀疏性强、单变量解释能力较弱等特点,准确且高效地从数据中挖据出与自身业务相关的价值成为关键。本文在网贷个人信用风险领域对此进行了有益的尝试。