【摘 要】
:
针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改
【基金项目】
:
国家自然科学基金资助项目(61405157)~~
论文部分内容阅读
针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优化方法从整体数据集中选择最具参考价值的原型集,从而避免了随机选择所带来的不确定性;在分类阶段,分别利用训练集和原型集、测试集和原型集样本之间的差异性构建相应的特征空间,进而采用传统的分类预测算法对映射到相应特征空间内的差异度数据集进行学习。最后选用了UCI数据库中的电信客户数据集和另外6个普通的不均衡数据集对该算法进行验证,相对于传统基于特征的不均衡数据分类算法,DBC算法对稀有类的识别率平均提高了8.3%,IDBC算法对稀有类的识别率平均提高了11.3%。实验结果表明,所提IDBC算法不受类别分布的影响,而且对不均衡数据集中稀有类的识别能力优于已有的先进分类技术。
其他文献
目的:探讨胸骨肿瘤诊断和治疗的临床特点、钛网胸廓重建的方法和临床效果。方法:2例胸骨肿瘤患者均行手术切除并予钛网胸廓重建。结果:2例患者均1期愈合,随访结果疗效满意,修
随着经济的发展、人们对生活品位的追求及纺织工业的迅猛发展,产生了大量的废旧纺织品。目前废旧纺织品大多被填埋和焚烧,不仅造成了资源的浪费还污染环境。本文提出了废旧棉
目的:通过观察比较银杏叶提取物注射液和丹参注射液对照治疗突发性耳聋的疗效,探讨银杏叶提取物注射液治疗突聋后听力及伴随症状的改善情况,分析其对不同中医证型及听力曲线
以α-溴苯乙酮酯为衍生化试剂,合成了α-氟乙酸苯乙酮酯(APFA)化合物,并以其为标准,建立了柱前衍生-高效液相色谱法测定生物检材中氟乙酸钠的方法.样品中的氟乙酸钠经酸化,丙酮
随着我国经济和社会的发展,机动车保有量快速增长,特别是小型车数量增速更快,机动车安全技术检验机构数量在政策驱动下增速也很快,检验机构竞争更加激烈,如何做好服务质量及
随着新课程标准在我国高中教育的实施与推广,高中传统教学课堂的模式发生了改变。高中思想政治课堂广泛运用研究型教学模式,取得了显著的教学效果。本文主要分析高中思想政治
教育现象学业已成为近十多年来国内教育学界研究与关注的重要课题,但我们遗憾地发现存在着误读、误解、误用现象学基本精神的现象,一些研究并没有真正坚持运用现象学的基本立
脑力劳动者保健有方脑力劳动者既要有高效率的大脑,又要保持身心健康,两者不可偏废。如何做到呢?本文向你奉献以下策略。坚持三餐制一般来说,早餐应以低脂肪、低糖食物为主。午餐
目的:研究不同剂量蚕矢汤加减对痛风性关节炎(GA)大鼠血清和关节液中肿瘤坏死因子-α(TNF-α)、白细胞介素-6(IL-6)、一氧化氮(NO)和前列腺素E2(PGE2)的影响,探讨其作用机制