论文部分内容阅读
摘要:银行信贷业务是银行的一项重要业务,该业务存在一定的风险,如果我们能够预测客户的违约风险就可以最大程度的降低风险。数据挖掘技术可以很好的解决这一问题。将数据挖掘技术运用到银行客户信用评估,在庞大的数据中将看似无关联的数据进行筛选和净化,提取出有价值的信息,对客户贷款申请做出恰当的回应。数据挖掘是信息技术发展的必然结果,它是指通过挖掘算法从大量数据中抽取挖掘出隐含在其中的有价值的模式或规律等信息的复杂过程。其中,对数据的分类是数据挖掘领域研究的重要课题。本文通过决策树的经典算法ID3算法对银行信贷业务进行分析,并总结了该算法相对于其他算法的优缺点。
关键词:数据挖掘;信贷业务;决策树;ID3算法
中图分类号:TP39 文献标识码:A 文章编号:1007-9599 (2012) 13-0000-02
2008年由次级贷款引发的金融危机使得客户的信用问题再度引起了金融界的高度重视。由于银行信贷业务的盈利特点,使得金融机构不仅获得了潜在的高额利润,同时也为金融机构带来了巨大的潜在风险。银行为了规避该种风险就需要对消费客户进行全面客观而准确的还贷能力进行评估。从而,信用评估技术成为了消费信贷的风险管理不可或缺的重要技术。
为了降低银行的经营风险,在银行的信贷业务中,银行贷款员需要分析数据,预测那些贷款申请者是安全的。面对这些海量的信息,如何从中发现有用的价值数据和知识无疑是当前需要重点解决的问题。数据挖掘技术正是在此背景下产生并蓬勃发展起来的。决策树算法是数据挖掘技术中的一项重要实现算法。
一、数据挖掘基本概念
数据挖掘(DM,Data Mining)是集人工智能、机器学习、统计学等科学为一体的新型技术;
所谓数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术。数据挖掘是一种决策支持的过程,它以人工智能、机器学习、模式识别、统计学、数据库、可视化技术等为基础,通过自动化地分析大量数据,进行总结性的推理,从而挖掘出潜在的模式或者规律,帮助决策者做出正确的决策。它不仅仅是面向某个特定的数据库的简单查询检索调用,而且要对通过分类、估计、预测、聚类、关联分析等方法对这些数据进行宏观或微观的统计、分析、归纳和推理,试图找到事件间的关联关系,以求解实际问题,甚至达到利用现有的数据对未来进行预测的目的。
数据挖掘的过程粗略的可分为五个步骤:确定业务对象、数据准备、数据挖掘算法执行、结果分析、知识同化。在实际生活中,使用数据挖掘模型得到一个直接的结论的时候并不多,更多的情况是,模型得出的是对目标问题多方面地描述,这时就要更好的分析和总结它们的规律,以提供合理的有价值的决策支持信息。
数据挖掘在金融领域中最典型的应用是进行贷款偿还预测和客户信用政策分析。贷款偿还预测和客户信用政策分析对银行业务是相当重要的。有许多因素会对贷款偿还效能和客户信用等级计算产生不同程度的影响。数据挖据的方法,如特征选择和属性相关计算,有助于识别重要因素,剔除非相关因素。
二、决策树基本概念
决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。其主要算法有ID3、C4.5等。
作为分类器,决策树是一棵有向、无环树。决策数的基本组成部分有决策结点、分支和叶子。其中最上面的是根结点,根结点没有父结点,其余结点有且仅有一个父结点;一个结点可以有没有子结点或一或二个子结点。没有子结点的结点称为叶结点;其他的结点称为内部结点。每个叶结点都对应一个类别标示的值;每个内部结点都对应一个用于分割数据的属性 Xi ,称为分割属性;每个内部结点都有一个分割判断规则qj ;如果Xi 是离散属性,那么qi 的形式为 ,其中 ,Yi就成为结点n的分割子集。
下面通过一个信贷客户信用风险分析的例子来说明:
其中债务情况是最重要的属性,因此第一个分支点设在债务情况Debt,第二个判断条件设为工作类型Employment Type。简单决策树如下图 2 所示:
三、决策树ID3算法
ID3算法是由Quinlan首先提出的。该算法是以信息论为基础,以信息熵和信息增益度为衡量标准,实现对对象数据的归纳和分类。该算法是决策树学习算法的一种典型算法,算法的重点部分在决策树的各级结点上,将信息增益方法作为选择属性的标准,来确定每个结点生成的属性均是合适的。这样可使获得的训练样本子集分类所需信息量最下
四、ID3算法的评价
ID3通过不断的循环处理,层层对决策树进行细化,直到形成一个足够准确的完整决策树,其优缺点总结如下:
(一)优点
1.ID3算法的假设空间包含所有的决策树,避免了假设空间可能不包含目标函数的风险。2.通过修改ID3算法可以很容易的扩展到处理含有噪声的训练样本。3.ID3算法非常适合处理离散值样本数据,有效利用树形结构的分层效果,易于提取容易理解的If-Then分类规则。4.引进了信息论中熵的概念,使得算法得到结点数最少的决策树。
(二)缺点
1.计算过程比较繁琐,计算量较大。2.ID3算法是一种贪心算法,重构决策树,易造成极为庞大的开销,不适合于渐进学习。3.建立的决策树层次较多时,决策质量低,倾向于选择取值较多的属性。4.ID3算法对噪声较敏感,容易造成对记录的误分类。5.ID3算法将关注的重点放在了属性的选择上,这种选择收到了一些怀疑,至今该问题。6.ID3算法不能处理属性值缺省的情况,也不能处理连续型属性。
五、结束语
数据挖掘技术已经成为了当今时代不可缺少的一项重要智能应用技术,本文主要针对银行信贷业务和数据挖掘的结合点出发进行研究。介绍了数据挖掘的概念,并着重介绍了决策树ID3算法,并将数据挖掘中的决策树技术应用于银行信贷业务,对ID3算法进行深入介绍,并总结了该算法相对于其他算法所具有了有点和存在的不足,为后人研究决策树算法提供了借鉴。
参考文献
[1]王莉莉.基于数据挖掘技术的银行客户信用评估研究,2008
[2]王睿.基于兴趣度的判定树算法快速分类的优化,2006
[3]洪晶,刘炳祥,程功勋.粗集决策树算法在医院感染诊断中的应用研究,2006
[4]马勇恶意网页的分析及识别方法研究,2008
[5]何胜文.基于数据仓库的关联规则挖掘算法的研究与应用,2007
关键词:数据挖掘;信贷业务;决策树;ID3算法
中图分类号:TP39 文献标识码:A 文章编号:1007-9599 (2012) 13-0000-02
2008年由次级贷款引发的金融危机使得客户的信用问题再度引起了金融界的高度重视。由于银行信贷业务的盈利特点,使得金融机构不仅获得了潜在的高额利润,同时也为金融机构带来了巨大的潜在风险。银行为了规避该种风险就需要对消费客户进行全面客观而准确的还贷能力进行评估。从而,信用评估技术成为了消费信贷的风险管理不可或缺的重要技术。
为了降低银行的经营风险,在银行的信贷业务中,银行贷款员需要分析数据,预测那些贷款申请者是安全的。面对这些海量的信息,如何从中发现有用的价值数据和知识无疑是当前需要重点解决的问题。数据挖掘技术正是在此背景下产生并蓬勃发展起来的。决策树算法是数据挖掘技术中的一项重要实现算法。
一、数据挖掘基本概念
数据挖掘(DM,Data Mining)是集人工智能、机器学习、统计学等科学为一体的新型技术;
所谓数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术。数据挖掘是一种决策支持的过程,它以人工智能、机器学习、模式识别、统计学、数据库、可视化技术等为基础,通过自动化地分析大量数据,进行总结性的推理,从而挖掘出潜在的模式或者规律,帮助决策者做出正确的决策。它不仅仅是面向某个特定的数据库的简单查询检索调用,而且要对通过分类、估计、预测、聚类、关联分析等方法对这些数据进行宏观或微观的统计、分析、归纳和推理,试图找到事件间的关联关系,以求解实际问题,甚至达到利用现有的数据对未来进行预测的目的。
数据挖掘的过程粗略的可分为五个步骤:确定业务对象、数据准备、数据挖掘算法执行、结果分析、知识同化。在实际生活中,使用数据挖掘模型得到一个直接的结论的时候并不多,更多的情况是,模型得出的是对目标问题多方面地描述,这时就要更好的分析和总结它们的规律,以提供合理的有价值的决策支持信息。
数据挖掘在金融领域中最典型的应用是进行贷款偿还预测和客户信用政策分析。贷款偿还预测和客户信用政策分析对银行业务是相当重要的。有许多因素会对贷款偿还效能和客户信用等级计算产生不同程度的影响。数据挖据的方法,如特征选择和属性相关计算,有助于识别重要因素,剔除非相关因素。
二、决策树基本概念
决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。其主要算法有ID3、C4.5等。
作为分类器,决策树是一棵有向、无环树。决策数的基本组成部分有决策结点、分支和叶子。其中最上面的是根结点,根结点没有父结点,其余结点有且仅有一个父结点;一个结点可以有没有子结点或一或二个子结点。没有子结点的结点称为叶结点;其他的结点称为内部结点。每个叶结点都对应一个类别标示的值;每个内部结点都对应一个用于分割数据的属性 Xi ,称为分割属性;每个内部结点都有一个分割判断规则qj ;如果Xi 是离散属性,那么qi 的形式为 ,其中 ,Yi就成为结点n的分割子集。
下面通过一个信贷客户信用风险分析的例子来说明:
其中债务情况是最重要的属性,因此第一个分支点设在债务情况Debt,第二个判断条件设为工作类型Employment Type。简单决策树如下图 2 所示:
三、决策树ID3算法
ID3算法是由Quinlan首先提出的。该算法是以信息论为基础,以信息熵和信息增益度为衡量标准,实现对对象数据的归纳和分类。该算法是决策树学习算法的一种典型算法,算法的重点部分在决策树的各级结点上,将信息增益方法作为选择属性的标准,来确定每个结点生成的属性均是合适的。这样可使获得的训练样本子集分类所需信息量最下
四、ID3算法的评价
ID3通过不断的循环处理,层层对决策树进行细化,直到形成一个足够准确的完整决策树,其优缺点总结如下:
(一)优点
1.ID3算法的假设空间包含所有的决策树,避免了假设空间可能不包含目标函数的风险。2.通过修改ID3算法可以很容易的扩展到处理含有噪声的训练样本。3.ID3算法非常适合处理离散值样本数据,有效利用树形结构的分层效果,易于提取容易理解的If-Then分类规则。4.引进了信息论中熵的概念,使得算法得到结点数最少的决策树。
(二)缺点
1.计算过程比较繁琐,计算量较大。2.ID3算法是一种贪心算法,重构决策树,易造成极为庞大的开销,不适合于渐进学习。3.建立的决策树层次较多时,决策质量低,倾向于选择取值较多的属性。4.ID3算法对噪声较敏感,容易造成对记录的误分类。5.ID3算法将关注的重点放在了属性的选择上,这种选择收到了一些怀疑,至今该问题。6.ID3算法不能处理属性值缺省的情况,也不能处理连续型属性。
五、结束语
数据挖掘技术已经成为了当今时代不可缺少的一项重要智能应用技术,本文主要针对银行信贷业务和数据挖掘的结合点出发进行研究。介绍了数据挖掘的概念,并着重介绍了决策树ID3算法,并将数据挖掘中的决策树技术应用于银行信贷业务,对ID3算法进行深入介绍,并总结了该算法相对于其他算法所具有了有点和存在的不足,为后人研究决策树算法提供了借鉴。
参考文献
[1]王莉莉.基于数据挖掘技术的银行客户信用评估研究,2008
[2]王睿.基于兴趣度的判定树算法快速分类的优化,2006
[3]洪晶,刘炳祥,程功勋.粗集决策树算法在医院感染诊断中的应用研究,2006
[4]马勇恶意网页的分析及识别方法研究,2008
[5]何胜文.基于数据仓库的关联规则挖掘算法的研究与应用,2007