极度不均衡数据集分类算法的研究及应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lollio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代科技发展日新月异,人类可以获取到的信息日益增多,但由于信息具有多样化的形式和结构,故需要从海量数据中高效地甄别出对自身有益的信息。分类是人类提取信息的一个重要方式,分类的质量受到诸多因素影响。其中,数据的类不平衡广泛存在于实际生活中,且类间极度不平衡将使模型分类效果急剧下降。针对此问题,文中在算法层面上,将少数类点视为异常点,将极度不平衡分类问题转化成数据描述的问题进行研究。数据描述技术是根据数据信息描述多数类的边界,并尽可能极小化边界所包含的范围,以降低错分少数类点的概率。文中对经典的数据描述类算法进行分析,并在最新的模型最大间隔的双球面支持向量机(MMTS)的基础上进行改进。文章所取得的研究成果主要有:MMTS所使用的Hinge损失函数将正确分类样本的损失记为零,仅使用错分样本点构造决策超球面,忽略了正确分类样本所携带的信息,故无法充分挖掘数据结构。针对极度不平衡分类问题,文中提出了一种光滑有下界的奖惩结合的损失函数(SRPL),新损失函数取值范围不再局限于正半轴,可根据新损失函数的正负分别对目标函数给予惩罚和奖励,既可以充分发掘数据集特征,又可以避免边界附近噪声的干扰。新损失函数相较于之前的损失函数,具有光滑有下界的优良特性,文中基于此新损失函数提出奖惩结合的最大间隔双球算法(RPMMTS)。同时,文中也从理论上验证了新提出的损失函数满足Fisher一致性。基于新损失函数的特性,文中根据牛顿法设计了一个新的求解算法。实验结果表明,RPMMTS比其他不平衡分类算法的效果更优。模糊K均值聚类(FCM)中每个样本并不单归属于某个簇心,而是所有簇心的一个成员,隶属度在迭代过程中更新。文章基于此思想将模糊度引入MMTS,得到最大间隔的模糊双球算法(MMFTS)。MMFTS在迭代过程中更新每一个样本对构建决策超球面的重要程度,提高了对少数类点的关注。另外,根据赋予隶属度的原理及实验分析,对少数类点的隶属度更新进行优化,以此加快迭代速度。实验结果表明,MMFTS有效地提高了少数类点的检测准确率。
其他文献
近些年,对具有扩散的蚊媒疾病模型动力学的研究引起了国内外学者的广泛关注,研究结果有效地解释了蚊群生长和疾病传播的时空演变模式.考虑到季节性变化的气候因素如温度、降雨量、湿度、日照时间等会影响蚊群的生长和分布,进而影响疾病的流行特征.本文将研究两类在周期环境下的反应扩散蚊媒传播模型的时间周期行波解,主要的工作如下:针对一类具有扩散的Ross-Macdonald模型,研究了该模型非临界周期行波解的稳定
学位
本文研究了时间-空间分数阶扩散方程(TSFDE)的反向问题,即通过所研究物理量u在t>0时刻的测量数据u(x,t)反过来求解u在t=0时刻的数据u(x,0).此问题的解决对环境治理、生物医学等多方面的发展具有重大意义.但由于此问题具有不适定性,反演结果不能稳定地依赖于输入数据.因此要想取得较好的反演结果,需要用到一些技巧.目前常用的有几种正则化方法,由于这些方法无法兼顾非常光滑与不光滑的情形,因此
学位
在众多领域存在大量的时间序列数据,如金融、医疗、交通、天气等,如何从历史数据中获得更可靠的、更准确的关键信息,并为人们的决策提供支持,引起了学者们的关注与研究。基于深度学习的数据融合算法能从多源数据自动提取特征,有效弥补单一来源数据的缺陷。经典的基于深度学习的数据融合算法主要利用单个任务数据进行融合,忽略了其它相似任务的先验知识。由于迁移学习是从相似任务中学习先验知识,从而弥补单个任务数据的不足,
学位
近年来,第三代半导体的代表材料GaN发展迅速,基于GaN材料的HEMT(high electron mobility transistor)器件凭借其优异特性在电子电力、射频、微波等领域应用广泛。随着对HEMT器件的深入研究,电流崩塌、电场聚集及寄生效应等问题逐渐突出,影响器件的可靠性,制约着器件的进一步发展。从结构设计与制备工艺的角度出发,解决上述器件可靠性问题的技术路径,均与表面介质沉积方法存
学位
环境污染和社会责任缺失,引发社会各界的强烈关注,同时经济快速发展使得企业面临日渐严重的竞争压力,因此可持续供应链管理实践成为企业突破双重压力的必由之路。但是企业的可持续供应链管理实践的绩效结果存在差异,并且利益相关者压力以及可持续流程管理的作用被忽视,导致企业的可持续供应链管理实践的实施结果并不理想。因此深入分析可持续供应管理实践与可持续供应链绩效之间的关系,同时探讨利益相关者压力以及可持续流程管
学位
航空航天事业的快速发展是科学技术飞跃进步和社会生产突飞猛进的结果,它对政治、经济、军事和人们的社会生活有着广泛而深远的影响。近些年来,一代又一代的航天器被先后送上太空,它们通过搭载在其上的星载天线与地面保持联系,实现了太空与地面间的通信、侦察和导航等功能。星载天线的结构尺寸对自身性能有决定性的影响,大口径星载天线能够实现对电磁信号的远距离传输、对侦测目标的精确定位和对微弱电磁信号的捕捉。环形桁架式
学位
随着智慧医疗信息化建设的加快,深度学习方法在计算机辅助诊断技术中越来越受到重视。深度学习模型的训练需要大量的有标签数据去支撑,然而在医学图像分类领域中完备的有标签数据集十分稀缺。采用迁移学习的方法来应对标签数据短缺的问题已取得不错的效果,但是自然图像和医学图像之间的特征分布存在很大的差异,这在模型迁移的过程中会对医学图像的分类准确率产生影响。采用自监督学习做模型预训练,可以减少模型对标签数据的依赖
学位
网络可靠性分析与网络故障诊断对多处理器系统的设计和维护尤为重要.本文的主要贡献包括:(1)提出了混合连通度以更好的衡量网络在混合故障情形下的可靠性,并给出了超立方体网络的混合连通度;(2)研究了PMC模型下超立方体网络的r-分支可诊断数;(3)在(f1,f2)-BPMC模型的基础上提出了f-BPMC模型,并研究了超立方体网络在f-BPMC模型下的h-额外可诊断数.连通度(边连通度)、额外(边)连通
学位
随着线上经济的加速发展与电子商务的不断扩大,中国现代物流业迈进智慧化发展的新阶段,对末端物流配送服务持续提出更高要求。但目前末端物流配送服务在管理和规范的标准上都缺少统一,末端物流配送服务领域的知识未被配送环节的各主体间有效共享,极大降低了配送人员的服务效率,更影响了客户的消费体验及物流企业的效益。因此,末端物流配送作为物流配送服务的开始与结束环节,如何促进其服务知识的有效共享成为亟需解决的问题。
学位
随着科技的进步和人类生活水平的提高,人们对产品质量的要求愈加严格.可靠性作为衡量产品质量的关键指标,在产品质量管理的过程中也变得愈加重要.由于许多现代工业产品都具有竞争失效的特征,因此,在可靠性研究领域中,竞争失效模型一直都是一个备受关注且值得深思的重要课题.有关其可靠性的研究无论是在理论指导还是实际应用中都具有重要的价值.本文考虑失效数据中存在屏蔽数据的情形,研究了不同相依结构下竞争失效产品的可
学位