基于不平衡数据集的分类预测算法的研究与应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zyy_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网、分布式存储和并行处理等技术的发展,各行各业所积累的数据呈现爆炸式的增长,如何将数据挖掘技术应用于日常的生产制造和智慧化的运营已经成为当前的热点,其中,分类算法在数据挖掘中应用非常广泛。由于日常生产和学习所遇到的数据大多属于不平衡数据集,因此,针对不平衡数据集的分类算法研究及其应用在实际数据挖掘中具有重要的实用价值。本文针对不平衡数据集的分类算法进行研究,所做的卞要研究工作包括以下方面:首先,从分类算法入手,提出基于SMOTE的AdaBoost改进算法。该方法先对不平衡数据集用SMOTE算法处理,降低数据集的不平衡率,然后对处理过的数据集进行有放回采样操作,基于训练子集生成基分类器,并计算基分类器权值,最后,再次基于SMOTE算法更新样本权值,实现对AdaBoost算法的改进,提升算法性能。基于实际数据的实验验证了所提算法的有效性和较强的泛化能力。其次,研究了基于不平衡数据集分类算法的评估标准,依据不平衡数据集的特点,在传统评估指标的基础上,引入误分类成本和客户挽留成本,提出了利润函数模型。针对该评估模型进行了基于实际数据的实验,结果验证了所提模型的有效性。最后,从运营商实际应用的角度出发,针对客户流失数据和业务营销数据,采用改进的分类预测算法和利润函数模型进行数据挖掘和分析,给出了数据中潜在的客户流失关联信息,既验证了上述算法和评价指标的有效性,同时,又给企业客户管理提出了降低公司运营成本、提高运营效率的有效解决方案。
其他文献
目的探讨应用化疗药后药物对兔肝造成的病理损害及其常规超声表现和声辐射力脉冲成像(acoustic radiation force impulse imaging,ARFI)的测定值。方法雌性新西兰大耳白兔30只,
本文为国家课题“王静安学术思想、学术经验承传研究”研究论文之一。根据随师临证15年收集有关资料,及王老专著《王静安临证精要》,从王老临证独特用药入手,对王老的“湿热
由山西省机械工程学会铸造专业委员会、山西省铸造行业协会主办的山西省第二十五次铸造会议拟定于2013年8月在山西省晋城市泽州县召开。现将本次会议及征文通知说明如下:
期刊
轨道车辆各类电子产品种类繁多,电子插件-PCBA-组装-测试的典型工艺路线除了对物料和半成品的供给和周转提出较高的要求之外,其组装工序的作业复杂度也较高,作业效率和过程质
目的观察右美托咪定对脑缺血缺氧新生大鼠神经凋亡以及对神经功能和长期学习记忆能力的影响。方法 7天龄SD大鼠90只。建立大鼠(7d)脑缺血缺氧损伤(hypoxic-ischemic encephalopa
城市贫困治理是当前城市发展的重要内容,通过归纳国内外学者关于城市贫困治理的研究成果和梳理我国城市贫困治理近二十年的发展历程,深入考察城市贫困的概念界定、城市贫困群
财政档案是记载和反映一个地方经济社会发展的重要依据,完整的保存财政档案,不仅为服务领导的决策,制定相关政策提供了客观依据,而且为经济和社会发展提供了更广大的信息空间
目的:观察国产比伐芦定在急性心肌梗死患者介入治疗术后的疗效。方法:符合标准的急性心肌梗死急诊PCI治疗的患者共122例。造影后随机分为肝素组(n=55)和比伐芦定组(n=67)。治
随着能源互联网的发展和"电能替代"日渐兴起,区域负荷预测的严峻性日益突出。电网端各种全新的影响因素在新背景下持续显示出来,由此引发很多关于电网规划的不明确性因素,以