改善数据不平衡问题的偏标记学习算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:zhengxkun12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中的许多场景都存在着样本标签不确定的问题,即样本在其对应的候选标签集中,只有一个标签是真实的标签,其余标签为伪标签,如何利用标签不确定的数据训练得到一个稳定的分类模型,是偏标记学习的主要研究任务。但是在传统的偏标记学习算法中,很少有方法考虑到标签的关联性,分类模型的泛化性以及数据的不均衡等问题。基于这些问题,本文主要做了以下几个方面的研究工作:1、提出一种改进特征引导消歧的偏标记学习算法(Partial label learning via FeatureGuided-Disambiguation,PL-FGD),解决了偏标记学习领域标签信息没有得到充分利用的问题,有效地提高了分类的精度。首先,通过最小二乘法计算特征之间的相似程度,然后,通过利用样本与近邻样本标签的皮尔逊相关系数来确定样本之间的相似程度,并确定一个样本间的综合相似度来消歧,最后,在分类阶段利用Bagging策略来构建分类树,实现对数据的分类。在UCI数据集Deter、Segment、Vehicle和偏标记数据集MSCRv2、Bird Song、Yahoo!News、Soccer Player、Lost上进行实验,并与现有算法PL-LEAF、IPAL、M3PL、PALOC、LSB-CMM、PL-ECOC进行对比分析,分类效果有所提升。2、提出一种基于均衡化局部线性嵌入的偏标记学习算法(Partial label learning based on Balabced Local Linear Embedding,PL-BLLE),有效解决了高维偏标记数据中存在的类别不平衡问题,提高了分类精度。首先,采用均衡分簇的方法对样本特征数据进行区间划分,使样本的局部不平衡系数达到最小值,然后,基于特征空间的流形弯曲度和样本疏密度来优化近邻样本的选取,从而得到最优的近邻样本集合,并对数据进行线性重构和低维空间求解得到降维后的数据,最后,使用多元回归分类器对降维后的数据进行分类。实验结果表明本章提出的算法在类不平衡数据集中分类效果提升明显。
其他文献
超透镜天线(Metalens antennas)由于其高增益、剖面低等特点得到广泛关注。但是超透镜天线存在着带宽窄、设计复杂等缺点,限制了超透镜天线的应用范围。本文致力于研究具有宽频带和高增益特性的超透镜天线。本文主要研究内容如下:设计并研究了一款宽带高增益金属超表面透镜天线。根据透镜天线的性能要求,得到阵面的相位补偿特性,将阵面设计为3bit相位分布,从而得到阵面各单元的理想相位曲线。针对阵面不
糖尿病被称为一种多病因的代谢类疾病,具体指由于体内胰岛素的分泌或作用产生缺陷,从而导致人体由于血糖、脂肪和蛋白质的代谢紊乱所造成的疾病。糖尿病逐渐成为继心脑血管疾病、肿瘤类疾病之后第三大威胁人类生命健康的慢性疾病。随着《“健康中国2030”规划纲要》的提出,人们愈发重视自身的健康程度,但受限于现阶段的医疗技术,糖尿病尚无有效的治疗手段,只能通过外界注射胰岛素进行缓解与控制。因此,对血糖进行及时而又
web2.0时代的到来,不仅为互联网和计算机科学领域带来了海量数据,还带来了新的数据类型。树结构正是这些新出现的数据类型的一种,它在计算机科学、语言学、生物学、图形学等领域的数据组成上占有重要的地位。而在这些领域中,用户更想通过度量不同树结构数据之间的相似性来完成一些特定检索、匹配等任务。但目前树结构相似度计算方面仍然存在着许多挑战:一、数据量大导致计算耗时严重;二、算法运行占用空间大;三、计算结
学位
随着电子通信系统的进一步发展和数据的大量产生,人们对数据传输速率的要求也越来越高。由于并行传输不能满足日益增长的数据传输速率的要求,SerDes技术逐渐成为人们的首要选择。然而,有线传输信道存在介质损耗、趋肤效应等非理想因素,这些非理性因素会导致信号的失真,严重降低了接受端的信号质量。为了恢复接收端的信号质量,均衡技术便成了高速SerDes系统中必不可少的一部分。在传输速率不断提升的趋势下,本文研
脑-机接口(brain-computer interface,BCI)系统在大脑和外部设备之间建立直接联系,通过识别大脑信号,把大脑活动直接解码成外部设备的控制指令。BCI系统在军事、教育、医疗、娱乐等方面得到了越来越多的应用。基于运动想象的BCI系统与人的自然想象和运动控制更加契合,因此本文主要研究运动想象脑电。由于运动想象脑电信号样本量小、信号维度高的特点,通道选择的作用显得尤为重要。过多的电
投影同步是一种重要的网络同步方式。在实际生活中投影同步现象非常普遍,如飞机编队的同步飞行、火箭的精准定位、保密通信等,因此,投影同步问题的研究具有重要的理论意义和现实意义。然而,已有的对复杂网络上的投影同步研究还存在诸多不完善的地方,具体有如下三个问题值得进一步探索。首先,已有投影同步的研究中尺度因子是一致的,对于实现网络投影同步来说条件过于苛刻。其次,为了实现给定尺度因子下的投影同步,往往需要追
电阻抗断层成像技术(Electrical Impedance Tomography,EIT)是一种体外检测的功能性成像技术,通过对被测对象的电导率分布或者电导率变化进行成像,提取人体生理和病理特征,与传统CT、核磁共振成像相比有着无辐射、便捷、成像速度快和设备成本低等优点;但是,目前的EIT系统普遍存在欠定性、非线性和病态性等问题,造成成像质量较低。边界电压变化对电导率分布变化不敏感的病态问题,求
目前,以深度学习为代表的目标检测算法,如:You only look once(YOLO)、Single Shot Multi Box Detector(SSD)等单阶段的目标检测算法已体现出的较高的检测率和稳定的检测效果,但是,此类检测算法在一些特定的小目标检测应用中,如车站广场人群密集的人脸目标、航站楼远处的飞鸟目标等,由于这些目标相对和绝对的大小都非常小,传统的检测算法针对这些小目标的检测率
社交媒体已经成为人们日常生活与社会交往不可或缺的重要场所,全球数十亿用户每天都会花费大量时间活跃在社交媒体平台上,这些网络平台已经成为人们实时交流、获取信息的工具。然而社交媒体的开放性和便利性同样也孕育了许多潜在危险,大量恶意账号和虚假信息充斥着社交网络。异常检测是识别社交网络上正常或异常活动的重要数据分析手段之一。图卷积网络(Graph Convolutional Network,GCN)作为一