基于统计信息聚类边界的不平衡数据分类方法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:lichengjing626
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决不平衡数据在传统处理方法中容易出现数据的过拟合和欠拟合问题,提出基于统计信息聚类边界的不平衡数据分类方法。去除数据中噪声点,根据数据对象的k距离设定邻域半径,利用对象邻域范围内的k距离统计信息寻找边界点与非边界点;将少数类中的边界点作为样本,采用SMOTE算法进行过采样,对多数类采用基于距离的欠采样删除远离边界的点,得到平衡数集。通过实验结果对比,验证了该算法的G-mean值与F-value值都有提高。
其他文献
为设计出具有高性能的卷积神经网络(CNN),且不需要在CNN和应用问题领域拥有广泛的专业知识和实践经验进行较优的CNN设计变量设置,提出一种基于模糊控制多细胞基因表达式编程算法来自动优化CNN的方法。通过设计一种有效的可变长度基因编码策略来表示CNN的设计变量,描述不同的构建块和不可预测的最优深度,将该算法应用于MNIST、CIFAR10和大肠癌症医学图像3个数据集进行验证。与其它已有先进算法进行实验比较,其结果表明,所提算法在分类准确度中可获得更好的效果,算法鲁棒性更强,且整个过程全自动完成。
目的:评价在早产儿延续护理临床护生教学中融入人文关怀教育的价值.方法:评价对象为2019.08~2021.07期间实习于某三甲医院的212名新生儿科的护生,其中2019.08~2020.07实习于本
为增强软件抵御各种攻击的能力,削减软件开发成本,研究一种基于改进遗传的XML注入式攻击自动测试方法。使用实码遗传算法搜索能够导致系统受到XML注入式攻击的用户输入,在算法执行过程中使用优化的编辑距离算法并引入影响因子LCS重新定义适应度函数指导算法的搜索。实验通过对比不同搜索算法结合不同适应度函数的搜索结果表明,该算法在测试用例的搜索、评估以及算法的执行时间上表现优异。
随着社会经济的不断增长,人们的生活水平得到了非常显著的提升,同时人们日常生活中的食物类型也愈加丰富,这在很大程度上满足了人们的物质需求,但是其带来的质量问题和食品安
目的:探讨外科快速康复在腰椎OLIF术式患者围手术理的应用效果.方法:将选取在我科2019-01-2020-12行腰椎OLIF术的40例患者作为研究对象,随机分为对照组和实验组,每组各20例.
定义具有概率影响扩散保证的最小代价种子选择问题,验证了该问题是NP难的,且其影响函数是单调且次模的。将LT模型下的传播网络看成一个不确定图,对不确定图的可能世界进行抽样。为降低计算复杂度,提出一种对抽样图进行路径计数的算法来估计影响传播,使用VC维估计抽样图的数量。基于贪婪方法,提出一种求解该问题的算法,对该算法的误差进行分析。实验结果表明,该算法比其它方法具有更高的性能。
为解决目前点云精简算法适应性差的问题,提出一种基于特征显著性的自适应精简算法。通过对点云FPFH (fast point feature histograms)特征聚类生成特征单词;在考虑单词间差异的基础上,融合单词内部的特征分散程度,形成显著性词典,由词典软编码单点特征,得到点云特征显著性;在均匀网格基础上,若网格内的特征显著性越强,则配置越高的采样率,由此实现点云的自适应精简。实验结果表明,所
目的:研究整体护理干预联合VSD技术对糖尿病足溃疡患者压力性损伤发生率产生影响.方法:选择128例糖尿病足溃疡患者随机分为两组,对照组行常规护理联合VSD技术,研究组在对照组
目的:分析体检工作中肾结石检出情况.方法:10000例体检者均行腹部超声检查,回顾性分析并统计其性别、年龄、肾结石检出情况等,所得数据经统计学检验.结果:10000例体检者肾结
为提高消防培训效果,提出一种基于深度神经网络的对混合现实消防培训数据分类的模型。通过Train2Vec将受训人员在混合现实火灾场景中进行消防培训时所产生的过程数据、生理数据构建为多维培训向量;通过对生成的多维培训向量进行相似度求解,实现将受训人员进行分类的功能,即归为专业消防人员、应对火灾经验丰富人员、未经历过火灾心理素质良好人员和未经历过火灾心理素质较差人员中的某类,为其生成个性化的应对火灾建议和消防培训任务,达到提升培训效果的目的。实验结果表明,该Train2Vec模型预测的身份信息的准确率为92.0