基于大数据的互联网金融征信的关键技术及问题分析

来源 :中国国际财经 | 被引量 : 0次 | 上传用户:ai2676886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文研究了基于大数据的互联网金融信用数据的采集、处理、分析、挖掘方法,阐述了构建互联网金融征信系统的关键技术和应用细节,探讨了互联网金融征信系统建设面临的隐私保护、信用数据集成、信用数据分析难点等急需解决的问题。
  关键词:大数据;互联网金融;征信
  一、应用大数据技术的互联网金融征信现状
  随着我国互联网金融的持续发展,诞生出许多新的服务模式,这些模式有利于破解中小微企业的融资难问题, 并展现出巨大的长尾效应,进一步促进了“普惠金融”,但由此暴露出互联网金融信用体系建设的滞后性值得密切关注。利用互联网金融的特点,基于大数据、云计算等技术,可以开拓出一种新型的征信模式,实现主动分析客户相关信息生成信用评级。该模式通过对互联网金融用户日常交易数据和社交数据的收集整合,借助大数据技术从海量信息流中挖掘用户特征、习惯,进而推断出其实际财务状况,进行风险评判。这种基于大数据的互联网金融征信是对现有的人民银行征信系统覆盖面有限问题的改善,以此为基础产生的互联网金融创新更是层出不穷。下面就介绍一下基于大数据的互联网金融征信的数据处理流程、关键技术及面临问题。
  二、应用大数据技术处理互联网金融信用數据的流程
  互联网金融征信就是利用大数据的高效率、低成本的特点,综合分析网络交易平台中的行为数据进而判断授信对象的信用状况,得出信用评分,并根据其进行风险认定。而要充分利用互联网金融的信用数据则需要多种技术的协同操作,云计算提供基础的计算资源,文件系统提供最底层存储能力,在文件系统之上建立数据库系统,然后构建索引,最后利用数据分析技术从海量数据中发现信用相关数据。
  下面就对互联网金融信用数据的处理流程和技术进行分析。
  (一)数据采集
  数据的采集是利用多个数据库来收集来自客户端(Web、App)的数据。从采集数据规模考虑,必须采用具有良好可扩展性的分布式数据库系统。采集到的数据包括结构化,半结构化和非结构化数据,传统的关系数据库技术无法处理半结构化和非结构化数据,需要采用NoSQL数据库存储半结构化和非结构化数据。比如,电商使用关系型数据库BD2或Oracle来存储结构化事务数据,使用NoSQL数据库Redis和MongoDB来存储非结构化数据。
  另外,在数据的采集过程中,高并发数是需要高度关注的问题。例如,双十一时的电商和春运时的购票网站,并发的访问量的峰值达百万。这种情况除了在采集端部署大量数据库收集数据外,同时还需解决大量数据库之间的负载均衡问题。
  (二)数据预处理和清洗
  要对数据采集端的海量数据进行有效分析,需将数据导入分布式存储集群或分布式数据库中进行预处理和清洗。导入的数据量巨大,有时会达每秒钟百兆,甚至千兆级别,如何解决海量数据导入、预处理和清洗是该过程的关键。其次,数据清洗过程中,相对细微且有用的信息有时混杂在庞大的数据量中,清洗粒度过细,可能将有用的信息过滤掉,清洗粒度过粗又无法去除无效信息,所以,清洗过程需要仔细考量和权衡。再次,互联网金融不同领域在数据处理的方式及效率上具有极大的差异性,实际中不存在单一数据库能够应对所有应用场景,如海量文本数据就不可能和图像数据采取同样的处理方法。
  (三)数据统计分析
  数据分析是获取信用数据最核心的问题,有价值的数据来自对每一次网络点击的计算分析。而数据的数量,采集的速度,类型的多样性决定着分析方法的复杂程度,选择合适的分析方法是决定最终数据是否有价值的关键。比如PowerDrill主要应用于大数据量的核心数据集分析,Dremel侧重于多数据集分析,数据集的种类相较于PowerDrill的应用场景多很多。另外,实时性分析会选择基于MySQL的列式存储Infobright、EMC的GreenPlum和Oracle的Exadata等来处理;基于半结构化数据或批处理的分析需求,会选择使用Hadoop。
  (四)信用数据挖掘
  信用数据挖掘一般不设置主题,通过在现有数据上应用各种算法进行计算,来满足高级别数据分析的需求。比较典型算法有SVM(统计学习)、NaiveBayes(分类)和Kmeans(聚类),主要工具有Hadoop的Mahout等。数据挖掘的由于计算量大、算法复杂且以单线程算法为主,所以,提高计算效率是信用数据挖掘的关键问题。
  三、应用大数据技术的互联网金融征信面临的问题
  上文讨论了互联网金融信用数据的处理流程及关键技术,但是互联网金融征信系统建设还面临着其他方面的问题。
  (一)互联网金融征信的个人信息保护问题
  互联网的发展使数据的产生和传播更加便捷,随之出现的个人信息保护问题越来越需要重视。《征信业管理条例》第十三条明确指出采集非依法公开的个人信息应当取得信息主体本人同意。但矛盾是如果为了保护个人信息而将所有数据隐藏,那么数据的价值就大大降低。目前,互联网金融企业可以收集到客户的行为数据,分析出其资产和信用情况,推出定制产品和服务,实现共赢。因此大数据时代的个人信息保护和数据价值的挖掘,应该是在不暴露个人敏感信息的前提下进行的,尝试在减少数据损失的同时保护用户隐私。
  (二)互联网金融征信的大数据集成
  为了充分全面反映借款人的资信状况,征信系统应该包括信息主体尽量多的信贷交易数据。目前,征信系统的数据主要来源是传统银行业金融机构和小额贷款公司,不包括互联网金融企业。有必要在保护信息主体权益的前提下进行互联网征信数据的收集,这就涉及到互联网金融征信系统的集成。人民银行应在政策层面推进互联网金融征信归集,要求互联网金融机构按照统一的规则,整合加工数据,向用户提供标准化征信产品。
  (三)互联网金融征信的大数据分析
  半结构化和非结构化数据量的迅猛增长,给大数据时代的数据分析技术提出了很高的要求。
  一是数据处理的实时性。互联网金融很多应用场景的数据分析要求在线实时。然而,大数据实时处理的模式至今没有一个通用的处理框架。各种分析工具只能对应其特定的应用类型,这就要求对现有的技术和工具进行改造来满足不同的业务需求和应用场景。
  二是数据模式变化中索引的设计。大数据时代数据量的变化决定着数据模式的变化,数据模式的变化又要求索引结构的设计能够在其发生变化时快速调整来适应。现有的大数据索引方案基本都有特定的应用场景,设计适应变化数据模式的索引方案将是大数据时代的主要挑战之一。
  三是先验知识的缺乏。结构化数据在以关系模型进行存储的同时就隐含了数据属性和数据关系的先验知识。而在面对大数据分析时,一方面半结构化和非结构化数据很难以类似关系数据库中结构化数据的方式表现先验知识,另一方面半结构化和非结构化数据很多以流的形式需要实时处理,无法实时建立先验知识。
  四、结束语
  《征信业管理条例》中规定,只要是从事放贷业务的机构,都应该接入央行征信系统。中国人民银行征信中心已允许小贷公司接入央行征信系统。互联网金融未来在政策允许的情况下,也应加入央行的征信体系。 随着互联网金融的蓬勃发展,征信作为互联网金融业务创新的基础,其作用日益明显。互联网金融企业对征信的需求也越来越迫切。征信关系到国计民生,应由政府主导,保证其公信力、强制力、规范性和广泛性。然而,不论是拓宽征信数据来源,还是扩大征信覆盖范围,互联网金融都是绕不开的一个环节,大数据征信都是需要深入研究的领域。
  参考文献
  [1]孟小峰,慈祥.大数据管理: 概念、技术与挑战[J].计算机研究与发展, 2013, 50( 01) : 146-169.
  [2]申德荣, 于 戈, 王习特, 聂铁铮, 寇 月. 支持大数据管理的NoSQL 系统研究综述[J]. 软件学报,2013,24(08).
  [3]朱春莹.面向大数据查询的索引技术研究 [D].山东:山东大学,2016:6-9.
  [4]曾忠禄.大数据分析: 方向、方法与工具[J].情报理论与实践,2017,24(01).
  作者简介:
  张菲菲,人民银行淮南市中心支行。
其他文献
水杨醛类席夫碱及其配合物因其良好的抗癌、抗炎等生理活性和催化活性等性能已成为近年来研究的热点。本文以邻香草醛和各类氨基酸为前体,合成了系列邻香草醛缩氨基酸席夫碱及
本文主要综述了多糖的单糖组成分析方法和食品中添加剂的测定方法,以及非在线分离富集样品和在线分离富集样品的方法。实验利用毛细管电泳的胶束电动色谱模式,分析广西特色茶叶品种-金花茶和六堡茶中多糖的单糖构成和摩尔比例,利用非在线分离富集技术-固相萃取和分散液液微萃取与在线富集技术-场放大样品堆积预处理食品中的添加剂,具体工作内容如下:(1)用超声波提取六堡茶中的多糖,加入乙醇使六堡茶提取液和金花茶浓缩液
锂离子二次电池是应用和开发前景较好的一种电源,改善和提高锂离子电池的电化学性能关键是选取充放电性能良好的负极材料。现在国内外商业化锂离子电池中的碳类负极材料已无法满足人们对高容量的需求,于是大量的研究工作主要集中在寻找更高容量的新型负极材料上。本论文在详细评述锂离子电池负极材料研究进展的基础上,以Zn_2SnO_4和Mg-Sn复合氧化物负极材料为研究对象,运用差热及热重分析(TG/DTA)、X-射
学位
毛细管电泳—电化学发光(CapillaryElectrophoresisElectrochemiluminescence,简称CE—ECL)技术,是当今分析化学前沿领域中一种极具潜力的微分离检测技术。最近几年来,基于Ru(bp
本文主要从以下几主面展开: 一、采用电聚合法制备分子印迹膜,利用分子印迹膜的识别功能,分别制备了两种电化学传感器。 (1)采用电聚合法在金电极上制备了邻氨基酚异丙隆
壳聚糖作为一种天然的碱性聚合物材料,近年来已成为质子交换膜研究领域中的热点。纯壳聚糖干膜在室温下的质子传导率极低,相当于绝缘材料。为此,本文对壳聚糖进行质子酸掺杂