基于K-means算法的企业信用无监督分类研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:longkeming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:企业信用分类的应用,能够为商业银行降低信贷业务的风险,随着市场竞争的不断加剧,机器学習和大数据的应用,越来越多的计量方法不断革新,并广泛运用到信用分析领域。本文设计了一个基于K-means算法的企业信用无监督分类方法,通过对企业信息进行大数据分析,提取企业信用相关的内容,再使用K-means算法对企业数据进行聚类,对目标企业根据其聚类所在簇来评估信用等级,以此对企业的信用进行分类。
  关键词:企业信用;信贷风险;K-means算法;分类;特征选择
  Abstract: The application of corporate credit classification can reduce the risk of credit business for commercial banks. With the continuous intensification of market competition, the application of machine learning and big data, more and more measurement methods continue to innovate and are widely used in the field of credit analysis. This paper designs an unsupervised classification system for corporate credit based on the K-means algorithm. Through big data analysis of corporate information, the content related to corporate credit is extracted, and then the K-means algorithm is used to cluster the companies, and the target companies are based on their The clusters where the clusters are located are used to evaluate the credit rating and thus classify the credit of the enterprise.
  Key words: Corporate credit; Credit Risk; K-means algorithm; classification; Feature selection
  1引言
  金融行业积累了大量的企业脱敏数据信息,企业的有效划分及标识在企业信用评估、企业风险监测中具有重要作用并受到各大平台的重点关注[1]。金融场景中企业作为信贷主体的数据覆盖互联网、政府、线上应用等来源的方方面面,数据量大,来源广泛、涉及企业的维度丰富[2]。企业信用分类的应用,为商业银行降低企业信贷业务风险,创新风险管理理念,探索出一条行之有效的解决办法[3]。随着大数据、人工智能的发展和市场竞争日益加剧,大量基于机器学习的信用评估分类方法提出并广泛应用于企业信用分析[4]。本文将企业脱敏数据信息进行特征选择,提取信用分类相关的内容,再使用K-means算法对数据进行聚类,按聚类簇划分信用等级。
  2 关键技术
  2.1 K-means算法
  2.2 特征选择
   特征选择是重要的数据预处理方法,在数据中选出重要特征可以降低数据维度、去除多余的变量,提高算法的精度和效率。
  本文使用皮尔森相关系数[6]对数据进行特征选择,皮尔森相关系数能够获取特征和变量之间的线性相关系,其计算公式如下:
  3 基于K-means算法的企业信用无监督分类
  3.1 提取相关特征
  计算数据所有特征与信用分类的皮尔森相关系数,根据结果判断该特征是否与信用分类相关。设企业的信用类别为C={x1,x2,...,xn},特征项为T={t1,t2,...,tn},相关阈值为x,当该特征项与信用类别的皮尔森相关系数大于阈值x即满足下式时选用该特征。
  3.2 使用K-means算法聚类
  在选取到相关特征后,使用K-means算法对企业数据进行聚类。K-means算法聚类效果的好坏很大程度上取决于初始聚类中心的选择,若选取的K个中心点中有离群点或者各中心点相互距离较近,则常导致聚类的效果不佳。针对这个问题,本文使用基于最大距离和密度相结合的初始中心选取方法。其过程如下:
  Step1:设置密度阈值q,随机选择一个样本密度小于q的点作为第一个初始中心点K1。
  Step2:在所有满足样本密度的点中,选择离K1最远的点作为第二个初始中心点K2。
  Step3:同上方法寻找第三个点,以此类推,直至获得K个初始中心点。
  用此方法可以使聚类初始中心间的距离较大,且避免存在离群点。
  在将数据进行聚类后得到K个簇,以簇内企业数据占比最多的信用类别来表示该簇的类别,对目标企业计算其到各簇中心的距离,距离最近簇所表示的信用类别即表示对该企业预测的信用类别。
  4 实验与分析
  本文采用浪潮公司发布的企业脱敏数据进行仿真实验,从数据集中取1万条数据,数据集共36个特征。实验结果如下图所示:
  从图1可以看出,在K取值为5时,本文算法拥有最佳准确率,表示分类效果最好。
  5结束语
  本文设计了一个基于K-means算法的企业信用无监督分类方法,首先提取企业信息中与信用分类相关的特征,再将企业数据使用改进中心点选取的K-means算法进行聚类,通过判断目标企业所在簇判断其信用类别,为企业信用评估提供参考。
  参考文献:
  [1] Simon Rogers,MarkGirolami.机器学习基础教程[M].郭茂祖,译.北京:机械工业出版社,2014.
  [2] 李恩,刘立新.小微企业信用评价指标体系研究综述[J].征信,2013,31(1):67-70.
  [3] 张杏枝.基于机器学习的信用评分模型研究[D].重庆:西南大学,2019.
  [4] 张萌.基于层次分析法的商务领域企业信用评价模型的构建[J].中国商论,2019(14):232-233.
  [5] 黄晓辉,王成,熊李艳,等.一种集成簇内和簇间距离的加权k-means聚类方法[J].计算机学报,2019,42(12):2836-2848.
  [6] 马克勤,杨延娇,秦红武,等.结合最大最小距离和加权密度的K-means聚类算法[J].计算机工程与应用,2020,56(16):50-54.
  【通联编辑:梁书】
其他文献
摘要:中国书法艺术作为传统文化的经典代表,在当今数字媒体艺术创作中的优势越加明显。数字艺术与书法元素的融合不仅带来了艺术的视觉互动体验和不同的表现形式,同时增强了书法文化的内涵和实用价值。网络数字媒体时代下,借助传统书法为桥梁逐步向平面设计、商业绘画、数字影视等方面发展,可以推进我国数字媒体艺术化的不断前进,从而实现中国传统与世界文化并行前进的目的。  关键词:数字艺术;书法元素;新媒体  1 数
摘要:分布式存储系统中为了实现高可用、高性能和高扩展性,系统内数据布局和负载均衡是关键的技术问题。一致性哈希算法是解决此类问题行之有效的方法。将对比研究几种一致性哈希算法,包括基本和带虚拟节点的一致性哈希,微信存储系统中应用的一致性哈希和谷歌跳跃一致性哈希。对微信存储应用的一致性哈希进行了改进。  关键词:一致性哈希;虚拟节点;跳跃一致性哈希  Abstract: In order to achi
摘要:随着当代计算机技术、信息通讯等技术的快速发展,3D技术也取得了丰硕的发展成果,并且已经逐渐的渗透到社会的各个领域。3D技术在数字媒体艺术动漫设计中的应用,使动漫设计工作进行更顺利。本文主要阐述新时代3D技术竞争优势同数字媒体艺术动漫设计中使用3D技术进行设计动漫人设,动漫背景,动漫色调,动漫图像等,内容仅供参考。  关键词:3D技术;数字媒体;动漫设计  中图分类号:TP393 文献标识
多媒体技术课程在数字媒体艺术专业中占有非常重要的地位,但长期以来,由于该课程的内容多、跨学科、复杂性等特点,致使任课教师的教学任务过重和学生听课效果不佳等方面的问题,迫切需要进行教学改革。该文在对该课程的基本情况进行分析的基础上,介绍由此引发的教学问题,并详细讲述了解决问题的方法,为该课程的教学改革提供一些参考意见。
摘要:人工智能进入了前所未有的快速发展时期,以深度学习为代表的机器学习算法,在机器视觉和语音识别领域取得了巨大的成功,并提供了丰富的连续数据资源,例如云计算和大数据。人工智能从根本上改变了生活的各个领域,由此国家呼吁发展智能教育。但是,关于如何走人工智能 教育的道路,仍然缺乏系统的讨论。人工智能教育的智能发展,不仅能够促进教育改革研究,还能够激发人工智能教育的应用思想,从而使我国教育事业得到更进一
摘要:培养融媒体人才,建设融媒体实验室,是响应国家媒体融合发展战略的现实需要。着眼于行业发展趋势,结合自身专业特色,武汉纺织大学传媒学院通过积极改革课程体系建设、转变人才培养模式、开展校企合作等,将传播学与设计学相融合、文学与艺术相融合,探索建设了湖北省高校中首家融媒体传播实验实训中心,为国内其他高校融媒体类实验室建设和教学提供借鉴和参考。  关键词:融媒体;实验室建设;实验实训  中图分类号:G
摘要:通过电流测量模块完成对配电房中多处节点的电流状况进行监测,然后通过载波通信模块将所得数据发送到单片机上,再通过程序编程结合STM32单片机完成对数据是否为正常的数据信息的判断,通过判断数据是否正常,来决定是否发出警告及进行是否断电处理。  关键词:载波通信;单片机;电路监测  中图分类号:TP311 文献标识码:A  文章编号:1009-3044(2021)23-0121-03  目前存
摘要:现今全球科学与技术正在迅猛发展,随之而来的则是世界经济结构与贸易模式翻天覆地的变化。而这些新变化对经济贸易活动参与者提出了更新、更高的要求。随着用人单位对人才资质要求与需求的变化,高校人才培养模式制定遇到了新的挑战。促使着高校加速推进人才培养模式的改革,尤其是外来将直接参与国际贸易活动的外语类人才培养模式的改革更是紧要。长期以来高校外语教学一直存在重知识轻能力的问题,特别是对于东北、西北等经
摘要:该文对比利用MSP430单片机实验完成的串口通信和利用FPGA完成的串口通信实验原理、过程、方法及实验结果,能够让学生不但能深刻理解硬件底层逻辑,还能让学生对比实验中学习串行语言和并行语言的优缺点,让学生真正做到知其然也知所以然。能有效提升学生的学习知识运用知识的实践能力。  关键词:实验教学;FPGA;单片机;UART  学习通信工程的过程中离不开大量的实验和动手练习,就如同开车一样,学习
摘要:本文首先简要介绍了当前计算机技术的发展状况及计算机编程语概述,随后分析了三种常用的计算机编程语言,最后探究了选用计算机编程语言的有效技巧,以此来供相关人士交流参考。  关键词:计算机编程语言;选用;技巧  中图分类号:TP311 文献标识码:A  文章编号:1009-3044(2021)23-0124-02  程序员利用计算机技术来研发出各种编程语言,并使用这些编程语言来编写不同类型的程