基于试验设计的不平衡数据欠抽样算法研究

来源 :华北理工大学 | 被引量 : 0次 | 上传用户:strong_zht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的极速发展,数据信息的重要性愈发明显,源于二分类任务里数据偏态问题的不平衡数据,渗透到了生活的多个领域之中。近年来,对于不平衡数据的研究既是一个热点也是一个难点问题。通过不平衡数据能反映出更具有价值的信息,因此研究提高不平衡数据分类中的少数类样本的准确率,挖掘出不平衡数据背后的价值具有重大的意义。现阶段对不平衡数据集的处理主要集中在两个层面上:一是在算法层面上,通过编写新算法或者改进旧算法的方法,令不平衡数据的分类有效;另一个是在数据层面上,在具体分析前,对数据进行预处理,对数目多的样本做欠抽样处理或对数目少的样本进行过抽样,令其相对平衡。主要在数据层面对不平衡数据集进行研究。首先,将试验设计聚类分析相结合,利用正交试验设计选取部分具有代表性方案代替全面试验,通过方差分析法对结果进行分析,剔除不平衡数据中占多数数据繁冗部分,提取最具代表性理想组合样本作为聚类中心。其次,通过研究分析选取处理速度快、占用内存小且适合大样本分析的K-Means聚类分析的方法对不平衡数据进行欠抽样,利用Logistic回归模型对欠抽样结果进行回代检测。接着,通过数据集进行了实证分析,结果表明采用试验设计与聚类相结合方法进行过欠抽样,不仅聚类算法的收敛速度得到一定程度的提升,而且在进行Logistic回归模型分析时,经过欠抽样处理数据的模型拟合度及回代准确率比之未经处理的数据有较大提高。数据集1由原来56.1%的提高78.8%,且检验样本的正判率达到89%,数据集2由原来的53.3%提高到71.0%,且检验样本的正判率达到86%。最后,为探讨本算法的适用性,对各种不平衡程度的数据集的不平衡数据处理前后Logistic回模型的拟合度进行了比较分析,结果表明方法较适合于不平衡度较低的不平衡数据集。图6幅;表52个;参62篇。
其他文献
近十几年,离散系统理论和滑模控制理论已经广泛应用于现实生产中,如自动公路系统、飞行控制系统和网络控制系统等,切换离散系统和切换离散广义系统的稳定性问题更是其研究的
近年来,新一代半导体材料氮化镓(GaN)具备禁带宽、电子饱和速率高、电子迁移率高、热导率高等优点,使得氮化镓高电子迁移率晶体管(AlGaN/GaN HEMT)具备工作电压高和输出功率
二型模糊集作为模糊集的拓展集,具有更精确地表达不确定性信息的优点。为了适应日益复杂的决策环境,许多二型模糊集及其拓展形式相继被提出,但目前针对二型模糊集的研究依然有限,导致二型模糊集的优势没有得到充分的体现。为了进一步体现二型模糊集的优势,以适应日益复杂的决策环境,使得评价过程和评价指标更加的准确合理,对二型模糊集及其拓展形式开展进一步地研究是非常有必要的。本论文就二型模糊集的相关问题展开研究,主
海洋贝壳是一种储量丰富的渔业废弃物,同时,又是一种独一无二的制备二维纳米材料的可再生原材料。无论是从环境保护还是资源利用上,对其回收利用都具有重要意义。目前,海洋贝壳的利用率极低,主要是对其无机组分的利用,对其有机组分用以大规模绿色的合成具有精细结构的二维碳纳米筛还鲜有报道。目前国内外对二维碳纳米筛的相关研究主要集中在石墨烯纳米筛材料上,虽然制备方法种类繁多,但大都存在高耗时、高成本、工艺复杂和容
原木材积是衡量原木品质的一项重要指标,而端面直径测量是原木材积检测的重要环节。现阶段木材厂多数采用人工检尺法测量端面直径信息,存在测量效率低、误差大、耗时长、过程
随着计算机视觉技术的高速发展,人脸识别系统与计算机视觉监控设备能够捕获到大量的图像信息。然而在光线较弱的室内或光照不均匀的户外等低照度环境下,由于非自然光源的照度
卷绕和飞剪控制一直是冶金、纺织、造纸等行业中研究的重点。随着科学技术的提高,围绕卷绕和飞剪的研究不断展开和深入。研究表明,良好的卷绕控制系统和飞剪系统在高精度制造行业中,起着决定性的作用,直接决定了产品的优劣性。由于我国在相关行业中设备研发能力的不足,长期依赖进口,造成国产设备自动化程度低,控制效果差等,以致市场占有率低。为此,提高国产设备控制精度就显得格外重要。本文的研究工作是在以西门子运动控制
市面上许多应用屈光方法构造的全景相机由于存在非零视差不允许离相机很近的对象进行无缝拼接。即使目前有许多主流的视频拼接算法来解决这类问题,但也会带来额外的运算开销,
软件定义网络与网络功能虚拟化是当前的研究热门方向。通过将软件定义网络与网络功能虚拟化技术相结合虽然能够为运营商提供便捷高效灵活的管理模式,但是对中间盒不合理的部
本文着重研究了向量均衡问题解的存在性与稳定性.借助于锥值映射的无限上连续性条件而不是上半连续性条件,论文首先建立了具变动控制结构的对称强向量拟均衡问题解的存在性结果,并给出了一个具体的例子来说明所得结果的有效性.进一步,将上述结果用于讨论广义强向量拟鞍点问题,获得其解的存在性结论.其次,充分运用改进集的性质,在适当的条件下,证明了基于改进集的两类含参数双层向量拟均衡问题近似解的稳定性定理,包括近似