改进K均值聚类的不平衡数据欠采样算法

来源 :软件导刊 | 被引量 : 0次 | 上传用户:lcm0153
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进K均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的PSO算法迭代寻找全局最优解作为K-means聚类所需初始值,然后通过K-means进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在UCI数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。
其他文献
与工商企业和第三部门相比,公共部门具有更为复杂的多重委托代理问题。为了寻求有效激励公共部门人员的途径,本文以信息经济学中的委托代理理论为依据,借助相应博弈模型,对当
2019年立冬次日,三五知己开启了一段说走就走的旅行,赴一次千年之约。秋与冬的告别,留下了秋无尽的缠绵与不舍。一路所见秋意正浓,路边闪过一簇簇开得热闹的小花,红艳艳的柿
期刊
为提高三维卷积神经网络对时序动作定位的识别效率和准确率,提出一种基于双流卷积神经网络的多阶段时序动作定位模型。该模型首先运用多尺度分割生成视频段,然后依次通过建议网络选择建议区域、分类网络作为定位网络的初始化,最后通过定位网络和非极大值抑制识别动作类别和动作起止时间。其中,建议网络、分类网络、定位网络使用稀疏采样的时序分割网络进行训练。实验证明,该模型可以有效进行时序动作定位,比目前较好的S-CN
针对传统车牌检测方法在复杂环境下识别准确率不高且过程繁复问题,提出一种基于Faster R-CNN和BRNN统一深度神经网络的车牌识别方法。首先,使用Faster R-CNN网络进行车牌定位:先通过RPN(区域提案网络)进行候选区域提取与输出,提供粗略搜索范围,再通过分类层结合提议目标层生成的边界框坐标和其回归系数,生成所需的最终边界框;然后,将车牌识别看作序列标记问题,使用具有CTC损耗的BRN
对比分析了材用、笋竹两用和笋用3种不同经营目标的毛竹林的经济效益。试验结果表明:立地条件好(I级)的毛竹林分,经营笋竹两用林经济效益最佳,而立地条件较好或中等(II级)的毛竹林经
为了发掘红树林内生放线菌资源和进行新型海洋药物研究,该文选择海南西海岸14种真红树的根、茎、叶、花、胚轴为研究对象,采用9种不同分离培养基[改良的高氏培养基(AGG)、海
为通过光电容积脉搏波信号获取动脉血压参数,并将其作为判断个人健康状况的依据,基于Tensorflow框架训练LSTM网络模型与传统RNN模型,使用625000条光电容积脉搏波数据序列通过
经济欠发达地区的环保工作与发达地区相比,受经济水平、文化观念、环保意识等诸多因素的影响,其执法环境、执法条件、执法水平均受到严重制约,工作进退两难,有时无所适从。
为寻找新型抗衰老药物,该文以海南西海岸红树林伴生植物为研究对象,采用9种不同培养基从7种伴生植物21份样品中分离纯化放线菌,通过PCR扩增,16S rRNA基因序列分析已纯化放线