多维信用分类数据特征检验与应用分析研究

来源 :北京化工大学 | 被引量 : 1次 | 上传用户:cao123guo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信用分类一直是科学研究的热点问题,尤其是在全球化的大背景下,随着互联网技术的发展,多维信用分类问题面临着新的机遇和挑战。一方面,数据量的增大,使得研究者在评估信用风险时有了更多可参考性依据;另一方面,随着技术的进步,信用数据集开始变得更加复杂,更加庞大,这对原有的一些评估流程带来了考验。多样化的信用数据集,对评估方法的灵活性提出了更大的需求,如何根据数据集的特点选择相适应的解决方案,是值得探讨的问题。本文基于数据特征驱动建模的思想,立足于国内外现有文献的研究,构建了完整的面向分类数据集的数据特征识别与解决方案,通过这一框架,可对数据集中存在的特征进行诊断,并寻找对应解决方法,提升分类器对数据的处理效果。本文将多维分类数据集中存在的数据特征整合概括为三大类:数量特征、分布特征和质量特征。数量特征又包括大样本和小样本等特征,分布特征包括高维性、稀疏性和类间不均衡性等特征,质量特征包括数据缺失性和噪声性等特征。针对每一个特征的差异化外在表现,本文分别总结了它们的检测方法,并形成了一个完整的数据特征识别方案。而针对每一个特征可能带来的问题,本文也总结了对应的解决方案。另外,针对数据集中存在的高维性特征,本文应用关联规则挖掘算法对原有的随机特征选择袋装法进行了改进,使这一方法能够更好地处理高维性问题,获得较好的实验效果。通过在多个信用分类数据集上进行实证分析,我们发现本文提出的面向多维分类数据的数据特征识别方案,能够有效对集合中存在的特征进行识别,基于这一识别结果,我们可以通过解决方案选择适当的处理方法。而与传统随机特征选择袋装法相比,本文提出的关联规则赋权特征选择袋装法能更有效地分辨出数据集中的违约样本,对高维性问题有更好的处理能力。
其他文献
第三条道路,作为社会民主主义的一种重要思潮,在不同的历史背景下呈现出不同的表现形式,担当着不同的角色。全球化是其现代意义形成的大环境。从第三条道路发展历程可以看出
提出在一般均衡框架下利用可测量的方式研究我国进口反倾销贸易救济效应,建立含反倾销措施的可计算一般均衡模型,利用中国进口反倾销数据以及其他宏观经济数据构建了模拟数据
宁夏泾源县退耕还林工程大部分属生态型林业,退耕地利用率低、农民收入步伐缓慢,在退耕还林地实施林药间作及野生花卉繁育不但可以调整和优化农村种植业结构,增加农民收入,而
近年来,素质教育以及新课改的开展越来越深入,很多学校也已经慢慢认识到了课程资源开发的重要性。我国小学教育在科学课程资源开发利用方面积累了丰富的经验,但是很多问题仍
范式是公共行政学演进的坐标。公共行政学发展至今,历经数个主导范式。随着新公共管理式微,一些新的范式出现。但是现在的学术界(尤其是中国)有太多的理论演绎,而经验研究却
<正> 近年来,新加坡和智利养老保险制度带动养老和经济双重发展的巨大成功引起诸多学者的关注,不少发展中国家甚至一些发达国家也纷纷效仿,掀起一股养老保险模式探索的热潮。
目前,由于我国区域经济发展的不平衡性和各地区养猪技术普及存在一定差异,加之不同地区人们的生产和消费习惯不同,这就决定了我国将在一个较长的时期内多种养殖模式并存。
<正>意识清楚的脑卒中患者常合并睡眠障碍,也是诱发反复卒中的因素之一[1,2]。探讨其影响因素,采取积极的预防治疗措施,对脑卒中患者的健康恢复具有重要意义。对2009年6月-20
<正>宜兴紫砂壶作为中国陶文化与茶文化相结合的产物,将中国陶瓷之美发展到了极致。明代李渔就称赞:"茗注莫妙于砂,壶之精者又莫过于阳羡(宜兴古称)。"他还说:"壶必言宜兴陶,
市场经济条件下同业竞争的外在压力 ,以及管理体制变化后出现的追求经济利益的内在冲动 ,促使越来越多的新闻媒介具有企业行为和商业行为 ,并由此提出产业化问题。新闻媒介产