基于密度标签空间的不平衡多标签学习算法研究

来源 :安庆师范大学 | 被引量 : 0次 | 上传用户:AsiaIT
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签学习作为一种真实世界中多语义描述方式一直是机器学习的研究热点之一。随着研究的深入,越来越多的问题出现。随着样本数量和标签数量的增多,大多数多标签数据集会出现类不平衡的情况,某些标签会因为正类样本过少而产生训练不充分情况,从而影响分类精度。现有的改善不平衡的常用手段是是对样本进行重采样和过采样,但是这种方法计算量很大,内存消耗过多,并且样本特征信息丢失过多,会致使分类精度下降。基于此,本文针对多标签不平衡的问题进行了研究,具体工作如下:1)在多标签数据集中,标签空间包含有许多隐层信息,其中标签密度信息可以帮助算法有效的改善标签不平衡问题。基于此,本文提出了一种基于分类间隔增强的不平衡多标签学习算法(Imbalanced Multi-label Learning Algorithm Based on Classification Interval Enhanced,MLCIE),首先深度挖掘标签密度信息,利用各这些信息与条件熵计算各标签的四种不确定性系数;然后构建密度标签矩阵,获取平衡的标签空间;最后使用极限学习机作为线性分类器进行分类。实验结果证明,该算法可以有效的缓解标签不平衡带来的分类错误。2)通过学习有效的标签相关性提升分类性能是解决该问题的一种最常见的有效策略,众多学者进行了大量研究,然而这些研究更多的是采用基于正相关性策略提升性能。实际问题中,除了正相关性外,标签的负相关性也可能存在,如果在考虑正相关性的同时,兼顾负相关性,无疑能够进一步改善分类器的性能。基于此,本文提出了一种基于负相关性增强的不平衡多标签学习算法,该算法首先利用标签密度信息改造标签空间;然后在密度标签空间中探究标签真实的正反相关性信息,并添加到分类器目标函数中;最后利用加速梯度下降法求解输出权重以得到预测结果。实验结果表明,该算法在兼顾正负两类相关性后,算法性能有了一定提高。3)考虑到上述研究中实验数据集都是在基准数据集上的,进一步地本文将研究此前工作在真实图像数据上的实验效果。基于此,本文设计了一种基于CNN模型的多标签自然场景图片识别应用,此方法对自然场景图片进行CNN算法特征提取后再用MLNCE算法进行分类,从而得到一个端到端的识别应用。实验结果表明,该方法对于自然场景图片的识别具有一定正确率。本文虽然研究了许多改善多标签不平衡的方法,伴随着研究深入,还有大量地多标签学习的问题没有考虑到,在后续的研究中会作为工作重点延伸下去。
其他文献
从20世纪50年代左右开始,集成电路出现并蓬勃的发展,随着科技的发展集成电路制造工艺也越来越精湛,集成电路的内部结构也越来越复杂。更先进的设计和工艺让芯片有着更强的计算能力的同时也给测试带来了新的挑战,大量的测试数据带来了更长的测试时间和更高昂的测试成本,于是提出了测试集的重排序测试方法。重排序的目的是将高价值的测试向量优先测试,在保证故障覆盖率的同时缩短了测试时间。论文的研究内容围绕测试集重排序
三角函数是我国中学数学课程中非常重要的内容之一,根据《普通高中数学课程标准》,三角函数被编排在新教材的必修4中,主要包含数学的数形合一、转化、化归、代换、特殊化等重要的数学思想,学生通过学习三角函数来培养“四基”和“四能”以及提升数学抽象、数学建模等等数学学科核心素养。基于十余年来的教学改革和研究,在中学数学三角函数中,已有众多教师学者在不同角度有着不同见解,但是并没有对三角函数的教学和解题作出系
在多标签学习中,每个实例对应多个标签并拥有丰富的语义信息。不可否认的是,标签的缺省现象经常发生在多标签数据集。缺省标签会导致多标签学习算法获取错误的语义信息或者丢失重要的语义信息。标签空间的挖掘工作是多标签学习中研究热点,获取的语义信息可以提升算法的性能。因此,标签空间的挖掘方法及度量信息的方式是研究重点。基于此,本文研究工作如下:1)在多标签算法中,大多利用特征与标签嵌入等方法挖掘标签空间的语义
人工智能以及大数据时代的到来,如何使学生能够成为适应未来社会竞争的人是我国的教育改革聚焦的重点。实际教学中,由于我国应试教育的客观性,导致新课改偏离方向,停留在浅层学习的程度。深度学习是浅层学习的进一步拓展,指的是对知识的深层次理解,这种理解并不是单纯字面意思上的学习内容难度的“深”,也不仅仅是对知识的深刻记忆与熟练应用,更包含了学生在这整个过程的多维整合,其中包括低阶思维与高阶思维。深度学习理念
背包问题是一类经典的组合优化问题,属于NP-hard问题,其研究模型众多但均可转化为最基础的0-1背包问题。目前,针对0-1背包问题的研究内容主要包括算法的探索和扩展模型的研究,尤其是针对扩展模型的研究一直都是热点问题。本文结合实际需要,提出以下两类扩展模型:(1)将0-1背包问题中的约束条件与实际结合,形成两种不同性质的约束:主观需求与客观约束;(2)将0-1背包问题中物品信息(例如物品价值)不
在过去的二十年里,无信号控制的交叉口的行车安全与道路通行效率成为热点话题。在没有信号控制的交叉口,驾驶员对如何通过交叉口只能通过眼神交流或根据自己的经验做决定,驾驶员之间的相互作用直接影响到交叉口的行车安全以及道路的通行效率。本文从具有无信号控制的交叉口的平面道路出发,通过在交叉口加入理性的博弈规则研究交通过程中驾驶员行为的演变以及驾驶员决策对道路通行效率的影响。首先讨论了基于周期性边界的无信号控
传统的基于纸笔测试方法的教育评价,因其具有公平公正、公开透明的特点而在我国得到了广泛的应用。然而,基于纸笔测验的教育评价注重评估学生对所学知识的掌握、记忆、理解等能力,很难对学生的高阶思维能力进行精准的评估,例如学生的创新能力、合作能力等。而STEAM(Science Technology Engineering Arts Mathematics,STEAM)教育的核心正是培养学生的创新能力等跨学
车辆路径问题(Vehicle Routing Problem,VRP)是一种传统的组合优化问题,其广泛运用于物流、交通控制等领域。随着科技的发展以及交通、通信手段的日益丰富,该问题再度成为研究热点,焕发了新的生命力。一方面,人们不断尝试丰富各类约束条件,模拟现实中各种因素对模型的影响,使其更好的描述实际情况;另一方面,人们不断改进算法,以期能以更高的效率规划出最佳路径。车辆路径问题的求解涉及到较为
近年来,随着硬件计算能力的提升和有标注数据的增长,人工智能领域的相关研究迎来了新一轮的快速发展。多标记学习作为人工智能领域的重要分支成为了当下研究的热点问题之一。为了提升多标记学习的性能,学者们分别提出了标记相关性(Label Correlation)和类属属性(Label-Specific Features)。在真实世界中,标记之间往往具有相关性,例如“吸烟”和“肺癌”呈现强相关。标记相关性假设
随着“科学素养”、“素质教育”等理念的不断强化深入,奋战在一线的广大教育工作者积极响应号召,投身课堂教学改革实践,贯彻落实化学教育理念。化学是一门以实验为基础的科学,实验赋予了化学灵魂,塑造了其完整性。实验在化学学科中扮演重要角色,在素质教学中发挥着不可替代的作用,注重化学实验不能作为响应新课程教育理念的空口号。城乡差距、资金投入、落实程度等各种主客观因素都制约着化学实验教学的进程,不可否认,真正