【摘 要】
:
近年来不平衡数据分类问题持续成为关注的热点,广泛运用于医疗、金融、信息安全等诸多领域。与传统的数据分类不同,不平衡数据中某一类别(少数类)样本数目远小于其他类,分类器无法得到准确的少数类分类结果,然而很多情况下少数类的正确识别更是用户所关注的。因此,如何有效识别少数类是解决不平衡数据分类问题的关键,本文面向不平衡数据的采样方法进行研究改进,主要工作如下:首先针对传统过采样算法忽略边界少数类样本的重
【基金项目】
:
黑龙江省教育厅科学技术研究项目(12531z004); 国家自然科学基金(61872105)
论文部分内容阅读
近年来不平衡数据分类问题持续成为关注的热点,广泛运用于医疗、金融、信息安全等诸多领域。与传统的数据分类不同,不平衡数据中某一类别(少数类)样本数目远小于其他类,分类器无法得到准确的少数类分类结果,然而很多情况下少数类的正确识别更是用户所关注的。因此,如何有效识别少数类是解决不平衡数据分类问题的关键,本文面向不平衡数据的采样方法进行研究改进,主要工作如下:首先针对传统过采样算法忽略边界少数类样本的重要性,易合成重叠样本同时未处理离群噪声点等问题,提出了一种基于边界和聚类簇的不平衡数据过采样方法。首先采用密度峰值聚类算法对少数类样本聚类,识别并处理少数类中离群噪声点;其次自适应的确定少数类边界区域采样权重,依据每个聚类子簇的稀疏程度确定采样比例,在样本边界区域和聚类簇中合成新的少数类样本,过采样后的新样本和原数据合并得到平衡数据集。在不同的分类器下进行对比实验,结果表明所提的算法能够有效地解决样本不平衡的问题,提高了分类器对少数类识别的准确性。进一步研究不平衡数据中的采样问题,针对欠采样时易丢失重要多数类样本信息,过采样中不能合成对分类决策更有效的少数类样本问题,提出一种基于密度的近邻优化混合采样方法。首先引入了密度系数的概念,使得样本在靠近边界的密度更大,然后采用聚类方法约减多数类,选择了能够代表多数类整体分布的样本集;在过采样方法中,依据密度系数分配采样权重,在靠近边界区域合成更多的少数类样本,进一步提高了少数类边界的决策支持度,混合采样后得到平衡数据集。实验证明,较于其他几种混合采样算法,所提的算法在处理不平衡数据问题上具有明显优势。
其他文献
针对当前煤矿安全监管监察实时性和针对性不足的问题,依托煤矿智能化建设中“综合管控平台”的基础数据支撑,提出了利用信息化技术建设煤矿安全生产风险监测预警系统的监管监察理念;分析了现有煤矿端安全风险数据集成的3种形式,以煤矿采空区内因火灾风险专题为例,以蓝、黄、橙、红4级风险指数对重大风险专题实时监管监察模式进行了说明。以东部某省为例,对基于煤矿安全生产风险监测预警系统的智能化监管监察模式进行了验证,
对云南某钛铁矿进行了工艺矿物学研究。结果表明:矿石中钛品位为5.62%,主要有用金属矿物为钛铁矿和钒钛磁铁矿,分别占总钛的61.39%和11.03%。脉石矿物主要是斜长石和钛辉石,脉石矿物中主要成分为SiO2和Al2O3,其含量分别为42.35%和12.53%。矿样中粗粒钛铁矿多与钒钛磁铁矿和榍石及硅酸盐紧密共生,其集合体的粒度主要集中在0.02~0.30mm。赋存于榍石与硅酸盐矿物中的钛多达27
我国目前日益加剧的人口老龄化现象对构建和谐社会提出了许多挑战。审美教育作为两个文明的重要组成部分,对于构建老年群体的完整人格显得尤为必要。为提高老年群体的审美素养和审美情趣,需要老年大学、政府、社区和个人通过调整课程和教学、加大投入、改善设施、组织活动、自我提升等策略切实保障审美教育的落实,以达到提高老年群体生活质量和幸福感、构建和谐社会的目的。
长期以来、以农药化肥的高投入,农业资源的高消耗为特征的农业发展模式与思想成为农业生产与发展的主要方式,这对我国生态环境,农民生活等方面造成了不良影响。新时代要实现农业现代化就必须改变原有的农业发展模式,对传统的思想进行解绑,走农业绿色发展道路。新时代推进农业绿色发展能够更好地推进与实施乡村振兴战略;能够满足农民对于生态美的诉求,提升农民生活品质;科技支撑下的农业绿色发展,能够节约劳动力资源,提高农
后处理分析是计算流体力学仿真分析中的一个重要组成部分。面向云计算环境设计了一种后处理服务模型,基于模型实现了一个后处理服务原型软件,用户可以通过客户端访问实现对流场数据的后处理分析。这种面向云计算环境的后处理服务充分利用了云端服务器的高性能计算资源,实现了大规模数据的高效后处理计算,实现了“云+端”的灵活后处理分析,具有良好的可扩展性。
近年来,安徽省铜陵市不断加强慈善政策创新,多方汇聚社会资源,帮扶困难群众共创美好生活,让慈善阳光普照铜都大地。目前,全市共登记认定慈善组织17家,慈善资金总量达3500万元;累计开展各类慈善公益项目80个,惠及困难群众4万人;全市注册志愿者突破22万人;百万人口"中国好人"当选率居全国前列。
由于煤矿周围的地质环境比较复杂,在开采工作过程中会对工作人员的人身安全造成一定威胁,所以要加强对煤矿的安全管理,以此来保证矿井安全生产。而对煤矿安全生产管理及智能化的运用,可进一步从源头上控制安全隐患。基于此,本文详细探究智能化煤矿安全管理及运用,希望对促进煤矿业可持续健康发展有一定帮助。
目的:探讨托特罗定与坦索罗辛治疗泌尿系结石术后放置双J管患者的下尿路症状的临床效果。方法:选取我院泌尿系结石术后放置双J管具有下尿路症状的患者140例(2015-06~2017-06),采用随机数字表法分为研究组和对照组各70例,研究组采用托特罗定治疗、对照组采用坦索罗辛治疗;对比两组患者治疗前后的膀胱过度活动症状评分(OABSS)、输尿管相关症状问卷评分(USSQ)、国际前列腺症状评分(IPSS
为确保智能车在复杂曲率变化道路条件下的跟踪精度与横向稳定性,提出一种基于Frenet坐标系的横纵解耦跟踪控制方法,并通过模糊速度规划提升跟踪的可靠性。横向控制采用基于前馈补偿的离散线性二次型调节器(DLQR)使跟踪误差收敛,纵向控制采用模型预测控制(MPC)输出期望加速度并结合油门制动标定表实现速度跟踪。速度规划方面以横向跟踪误差与道路曲率作为输入信号进行模糊速度规划。基于CarSim/Simul