基于标签不平衡率和邻域分布的多标签采样算法

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:hjwuser
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近来,多标签分类任务的应用领域变得越来越广泛,因此对该问题的研究也变得愈发重要。然而,类别不平衡问题是多数多标签数据集固有的一种特征,它影响了大多数多标签算法的分类效果。目前,解决这个问题的主流方法可以划分为四个类别:重采样法、分类器适应法、集成法和成本敏感法。在这其中,重采样法被认为是一个比较有效的策略,该方法是在分类器对多签数据集进行训练前,先使用重采样技术对数据集进行处理。这是一种独立于分类器的类别不平衡问题处理方法,不受使用分类器种类的限制,因此它是非平衡多标签分类任务的研究重点。现有的多标签重采样方法往往着眼于减轻数据集的全局不平衡程度,很少有关注并解决标签之间不平衡程度差异较大的问题。忽略此问题的结果是在重采样过程中,可能会进一步放大标签之间不平衡程度的差异。在采样过程中随机复制或删除样本时,也可能导致数据集重要信息丢失、放大噪声或在训练过程中造成过拟合等问题。这些问题都会导致分类效果不佳。针对以上问题,本文改进MLSOL(Synthetic Oversampling of Multi-Label Data based on Local Label Distribution)算法,提出了一种基于标签不平衡率和邻域分布的生成采样算法(Multi-Label Synthetic Oversampling based on Label Imbalance Rate and Neighborhood Distribution,MLSIN),主要贡献点为:(1)首次基于标签不平衡率提出一种标签不平衡程度的定义和计算方式,并提出新的样本权重计算方法,该方法同时考虑到了标签不平衡程度和标签邻域分布情况。新的样本权重可以使与标签不平衡程度高的标签关联的样本有更大概率被选中进行采样操作,从而有利于同时缓解标签之间和数据集整体的不平衡程度。(2)提出了一种样本类型修正惩罚策略,对处在决策边界样本的类型修正时依据邻域分布状态进行惩罚,使采样结果更好地增强决策边界少数类的信息。同时利用新的样本权重选择采样过程中使用的基础样本和辅助样本,生成更多的与不平衡程度大的标签相关联的样本,让分类器更好地学习和分类容易被误分类的样本。通过在公开多标签数据上与其他重采样方法进行对比实验,证明本文方法的有效性和优势。为进一步提升本文方法对非平衡多标签数据集的分类效果,借鉴集成学习思想,提出一种使用随机近邻参数的多标签集成学习框架(Ensemble of Multi-Label Synthetic Oversampling based on Label Imbalance Rate and Neighborhood Distribution with Random Neighbor Parameters,EMLSRP)。框架中基分类器使用随机近邻参数界定样本的近邻范围进行采样操作,并最终通过投票的方式对所有基分类器的预测结果进行集成。通过在公开多标签数据集进行实验,证明改进的方法在分类效果上进一步提升。
其他文献
随着移动智能终端的普及和网络服务平台的快速兴起,如今,我们每个人都会在各种各样的服务平台拥有着自己的账户。然而由于平台的互斥性,我们很难知道,某两个或多个用户是否是同一个人,如何对跨平台的用户进行识别匹配,即异构网络用户对齐,如今成为了一个有趣且很有挑战的问题。本论文从异构电商平台网络用户对齐的技术和应用层面出发,深入研究电商平台用户关系结构特征和用户兴趣偏好,实现跨电商平台用户对齐以及深入挖掘用
学位
医疗物联网不仅使病人能够更方便地获得医疗服务,也让医生能更加实时、准确地获取病人的身体状况从而制定更高效的治疗方案,但人们在享受医疗物联网带来的便利的同时,如何保障医疗物联网设备的安全通信、如何保障病人的隐私不被泄露都是非常重要的问题。匿名认证与密钥交换协议允许客户端在完成匿名身份认证的基础上与服务器建立起会话密钥,作为一种非常便捷的具有隐私保护的安全技术备受关注。如何设计医疗物联网环境中高效、安
学位
互联网世界中充斥着人们情绪和观点的表达,表达情感的方式多种多样,除了直抒喜怒哀乐,运用修辞手法来加强情感也是一种常用的表达方式。讽刺就是其中一种修辞手法,通常用于表达作者与文本表达相反的情感。例如,在句子“今天把脚歪了,真是开心的一天”中,本来把脚歪了是一件坏事,是让人不开心的,而作者使用“开心”这一正向的词语来评价,通过戏谑的方式,进一步表达出自己的不开心。像这样的表达,让我们人类来理解是很容易
学位
三维点云配准是计算机视觉和计算机图形学领域的一个基础研究问题,其应用包括增强现实、物体姿态估计和三维重建等。它的目标是预测刚性变换,将源点云与目标点云对齐在同一坐标系中。目前,基于深度学习的点云配准方法相较于传统方法有着推理速度快,配准精度高等优势,因此备受研究者们的关注。然而,现有的深度学习方法在部分到部分的点云配准中表现不佳,因为大量离群点的存在严重影响了这些方法的有效性。此外,现有的一些方法
学位
目的 比较髌上入路和髌下入路髓内钉治疗胫骨干骨折的临床疗效,为胫骨髓内钉入路方法的选择提供指导。方法 回顾性分析2018年1月—2019年12月安徽医科大学安庆医学中心骨科收治的54例胫骨干骨折患者资料,均采用髓内钉内固定手术,根据手术入路的不同分为髌上入路组(25例)和髌下入路组(29例)。比较两组手术时间、术中出血量、术中X线透视次数、术中二次位移发生率、骨折愈合时间、术后膝前疼痛发生率、改良
期刊
随着网络的飞速发展,移动互联网、远程办公等新型应用场景逐渐走进人们的生活,传统网络安全防护手段存在的弊端也日益凸显出来。传统的认证方式局限于对单一用户进行身份认证,合法用户也是以粗粒度的形式来管控,攻击者往往可以利用身份伪造或偷取令牌来冒充合法用户。与此同时,传统网络缺乏用户信息的隐私保护,导致用户的个人隐私遭到了严重泄露。因此,对用户的身份进行安全认证和隐私保护已经成为了一个亟需解决的问题。零信
学位
<正>1引言为了培养学生的创新精神和实践能力,使教育更好地满足社会经济发展和国家对人才培养的要求,我国越来越重视对综合实践、课题学习、数学探究、数学建模这些课程的探索和落实,在课标中提出了多项重要举措,促进了教、学和评价的变革.《普通高中数学课程标准(2017年版)》(下面简称“2017版课标”)[1]将“数学建模”列为六大数学学科核心素养之一,同时将“数学建模活动与数学探究活动”作为高中数学课程
期刊
私密比较是安全多方计算领域中一个重要应用,指参与者在能够保证安全性和隐私性的前提下比较私密信息的大小关系。量子私密比较(Quantum Private Comparison,QPC)使用量子作为计算资源,以量子力学的特性保证协议的安全性,相比经典私密比较协议能够提供更强的安全保障。量子私密协议在电子选举、无记名投票、门限签名等实际场景中有重要的应用。目前的QPC协议中大部分都处于理论研究,这是由于
学位
随着传感器技术的发展和普及,遥感已经成为人们获取地面信息的重要途径之一。高空间分辨率的多光谱图像在军事国防、精细农业、地质灾害检测等领域都得到了广泛的应用。而全色锐化是遥感图像处理领域的一项基础而重要的任务,利用全色图像的高分辨率空间细节来增强多光谱图像的空间分辨率。随着计算机视觉领域中深度神经网络的发展,深度神经网络在全色锐化中的应用引起了越来越多研究者的重视。目前的大多数全色锐化方法普遍缺乏将
学位
近年来,智能设备走进千家万户,万物互联使得各行各业都产生了海量的信息,其中不乏含有小到个人的隐私图像,大至国家的机密图像在互联网上进行传输,这也随之而然地出现一系列问题,其中最严重的当属在公共信道传输过程中的数据安全问题。当数字图像在公共信道上传输时,保护图像数据信息最简单而又有效措施是利用某种技术将图像加密之后再进行传输。发送方使用图像加密算法将原始图像加密成为一幅无意义的噪声图像,而接收方使用
学位