基于特征工程的互联网个人贷款违约风险预测研究

来源 :李嘉琪 | 被引量 : 0次 | 上传用户:feidog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,国民的消费观念逐渐改变,个人信贷业务呈现出爆发态势,信用贷款业务为广大居民提供了帮助,给各类金融机构带来了利润,信贷风险也成为了重点关注问题。信贷违约已经有很多基于单一来源数据的研究,但融合多源数据的研究较少。在大数据时代,通常单个特征的技术、信息和经济价值较小,需要使用特征集,才可能提取相关维度的充分信息。所以,本文从业务意义出发,开展多源数据特征工程工作,尽可能挖掘客户申请贷款信息、信用局信息、历史行为信息中影响违约风险的因素。实证分析中,首先根据业务意义对申请信息数据进行了处理,包括处理缺失数据和清洗异常值,根据文献经验构建均值类、比率类衍生特征,通过SPCA方法压缩31维高度相关的二元变量等。之后,依据不同数据集的特性,构建衍生特征并解释其业务逻辑,分别建立XGBoost与LightGBM违约风险预测模型,通过模型预测评价指标变化,和基于模型构建的特征重要性指标情况,验证了多源数据的必要性和特征提取工作的有效性。最后,本文选用训练速度与预测效果综合表现更佳的LightGBM模型,利用交叉验证方法进行调参、特征选择,剔除了重要性较低的变量,保证了本文多源数据处理及整合工作的可扩展性,并且通过模型融合方法获得了稳健性更好、预测效果表现更优的模型。本文的信贷数据处理与建模思路,为正确认知并有效识别互联网金融个人贷款问题中的信贷风险提供了参考和借鉴,有助于尽可能地减少“信息不对称”导致的信贷供给问题,提高信用贷款贷前审批的科学性。同时,本文提出的建立信用评分体系并拓展应用场景以获取数据沉淀的一系列建议,也将帮助互联网金融公司业务发展形成良性循环。
其他文献
加工水平(Level-of-Processing,Lo P)效应是指学习过程中的定向任务对随后记忆测试成绩的影响。一般认为,语义编码的刺激通常比知觉编码的刺激记忆得更好。加工水平作为影响记忆表现的重要因素之一,在认知心理学领域已被广泛研究长达半个世纪。但这些研究大多聚焦于项目记忆,对联结记忆的研究相对较少,且研究者们对“加工水平”的划分尚未达成一致。此外,加工水平已被证实能够调节项目记忆的定向遗忘
学位
战争电影因其题材的特殊性一直蓬勃发展至今,也因为战争题材的宏大与包容性,对于战争背景下的叙述重点的差异进而也衍生出众多子类型,本文主要针对涉及宏大叙事、主题多元、人物众多相关题材的战争电影与网状叙事结构结合进而对战争电影叙事进行试验性创新。网状叙事关注多线索多主角及其之间的联系,宏大题材的战争电影与网状叙事结构结合能够行之有效地对传统叙事进行突破与发展。本文先通过梳理战争电影叙事发展来分析战争叙事
学位
本篇实践报告以北京大学2020年举办的圆桌论坛“后脱贫时代的农村发展与转型”为素材,以彼得·纽马克的交际翻译为指导,探究模拟口译实践过程中的难点及解决方案。鉴于交际翻译与口译在目的与标准存在共同之处,该理论也可为口译实践提供指导。交际翻译注重目标读者,追求译出信息语义的准确度,而口译也注重不同语言人群之间的交流,及输出的准确性,因此也适用于探究口译实践。口译过程中的难点主要有中国特色词汇、逻辑模糊
学位
自19世纪60年代印象派出现以后,个性化和抽象化使得非再现性成为西方绘画的一种趋势,其中一个较为鲜明的特点,是色彩不再追求视觉真实,而具有了一种平面化的倾向。随后兴起的纳比派、野兽派、表现主义和抽象主义等绘画流派都对平面化色彩语言进行了积极的探索,这些画派的艺术家敢于挑战权威,寻觅突破,最终形成自身绘画创作中独具特色的色彩语言,博纳尔就是平面化色彩语言探索进程中极具代表性的一位。因此,对博纳尔绘画
学位
学位
在数据时代,计算能力成为新生产力,以机器学习算法为代表的智能信息处理技术作为新工具,在健康医疗领域体现了较高的应用价值。本文的研究工作聚焦于设计和构建生理医学信号检测领域的自动分类决策模型。在自动模式识别系统中,算法模型是核心,数据和计算是基础。从数据可用性水平的角度,机器学习可分为全监督学习、部分监督(即半监督)学习、无监督学习等不同实现方式。目前医学图像视频或其他类型数据的人工标注程序投入成本
学位
党的十八届三中全会第一次明确提出“推进国家治理体系和治理能力现代化”这一重要课题。党的十九届四中全会,以习近平同志为核心的党中央作出了《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》。作为国家治理体系和治理能力现代化的重要组成,提升高校内部治理能力也越来越受到关注。省属非“双一流”本科高校在国家推进治理体系和治理能力现代化战略下,又有一系列国家政策
学位
在开放式创新的背景下,基于外部知识获取的协同合作成为企业培育创新能力以及实现创新驱动发展的关键所在。因此,探究外部知识搜索与创新绩效的关系具有重要意义。然而纵观现有文献,当前关于知识搜索与企业创新间关系的研究尚未达成统一结论。其次,当前研究主要聚焦于知识搜索对创新的直接影响,忽略了企业能力在二者间的传导机制。再者,当前研究只是较为笼统地定义创新绩效,并未对创新类型进一步划分,而实际上,创新的程度、
学位
图书馆学专业教材作为学科记忆的重要组成,对其历史脉络的钩沉是新时期推动图书馆学专业教材发展的重要参考,对管窥图书馆学专业教育正规化、规模化和图书馆工作的职业化发展以及图书馆学与情报学融合发展具有重要意义。采用内容分析法对通过文献调查法与网络调查法所获805种图书馆学专业教材进行了深入分析,在结合中国图书馆学教育发展分期的基础上,将图书馆学专业教材发展历史分为4个时期,区分归纳不同时期教材发展的主要
学位
国内外新冠肺炎疫情的突发,给中国的服装行业带来了沉重的打击,尤其是独立服装设计师品牌。在面对国内外环境如此严峻的情况下,独立服装设计师品牌不得不思考在后疫情时代下,如何实现品牌的转型与升级,制定品牌发展策略来保证正常的品牌运转与盈利。围绕以上问题,本文开展后疫情时代上海独立服装设计师品牌的发展策略研究,主要将研究对象聚焦为发展较好的上海独立服装设计师品牌,研究内容会从四个部分进行详尽阐述。第一部分
学位