基于LS-SVM的多标签分类算法

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:yangzhehang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是用训练样本建立的模型将测试样本分到一个或多个类中。传统的单标签分类问题是假设类之间相互独立,一个样本仅能归为其中一类,而在实际应用中,样本会和多个类相关联,需将样本同时归到多个类,这就是多标签分类问题。目前,多标签分类算法的研究已经取得了很多成果,大致可分为算法有关和算法无关两大类方法。算法有关的方法虽然没有改变数据的结构以及类与类之间的联系,但是由于它需要花费大量时间去解优化问题,因此难于应用到较大规模的数据集。算法无关的方法不需要考虑标签的相关性,因此易于实现,并且运行速度较快。从分解的角度可将算法无关的方法分为一对一分解、一对多分解以及幂集法等。由于一对一分解出的数据集规模比一对多要小,并且分解出的两类样本的数量更平衡,因此,一对一分解策略更受科研人员的青睐。   本文采用一对一分解策略,将多标签分类问题分解成k(k-1)/2个两类单标签和两类双标签的分类子问题,对分解后的数据子集建立LS-SVM分类模型,当出现两类单标签子问题时,使用传统的LS-SVM分类算法直接处理;当出现两类双标签时,将同时拥有两个标签的样本看成混合类,并将标签值设为0,对新的数据子集再用LS-SVM分类器进行处理。两类双标签建立的分类模型一般将分类阈值t设为±0.5。为了得到更佳的分类阈值,本文根据正类-混合类、负类-混合类的数据分布分别求得两个分类阈值,通过实验比较说明优化分类阈值能改善算法的性能。最后,利用投票方法将测试数据分到一个或多个类中。   在算法的实验部分,本文归纳了不同的预测评价准则,并介绍四个基准的数据集以及数据集标签的描述。对情感、景象、酵母和基因这四个数据集分别采用本文的方法预测,对于参数γ和σ2选择,LS-SVM模型采用网格搜索的方法,设定这两个参数的可行区间,由计算机自动对各参数变量组合并逐一择优,使用留一法选取最佳参数值。对情感数据集的预测结果说明,本文的方法在汉明损失、准确度、1错误率以及排序损失上都有较好的结果,而其他几个评价标准也均列在前列;景象数据集上的实验结果表明,本文的预测方法在汉明损失和查全率上具有较好的结果;本文采用的方法在酵母数据集上有较高的查全率;而对基因数据集,现存的多标签分类方法以及本文所采用的基于LS-SVM算法均有较好的预测效果。对本文的算法和现存的多标签分类算法的比较结果显示,没有一个算法能够保证其预测结果在所有的评价准则上都是最优的,但是本文的算法在某些性能上优于现有的算法。
其他文献
XML作为新一代的数据交换标准,在网络上的应用越来越多,由此也产生了大量的XML数据。如何对XML数据进行有效的查询处理成为现在研究的热点。而XML作为半结构化数据具有自定义
计算机在不同行业的广泛使用,需要大量的软件作为支撑,越来越多的软件企业发现按照传统的一次开发一个软件的方式已经不能满足需求,它们需要提高软件开发的效率,而基于生产线
进化非选择算法是基于生物免疫进化机制和免疫非选择机制而提出的,其已被应用于异常检测问题。本文主要对进化非选择算法用于异常检测时的平均时间复杂度进行分析;并从理论上
高光谱遥感数据凭借非常高的光谱分辨率,在地物分类方面存在巨大的潜力,从而在矿藏勘探,环境保护等诸多领域得到了广泛的应用。近年来,随着高光谱分类算法研究的不断深入,融合了空间特征的分类模型成为学者们研究的热点领域。而以往的许多研究忽视了空间特征的重要作用,以及很少对多种特征的融合策略进行研究。基于这种现状,本文主要对多种特征在不同的层面的融合方式进行研究,主要内容如下:第一,从高光谱遥感数据的构成、
在计算机网络技术快速发展的今天,网络安全越来越受到人们的重视,非法外联监控系统是解决网络安全问题的有效手段。在一些保密级别较高的内部网络中,网络管理人员往往在内部
数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程,是涉及人工智能和数据库等学科的一个相当活跃的研究领域。序列模式发现是其中一个重要的
随着半导体工艺的发展,片上系统(System on Chip)体系结构设计变得越来越复杂,一个片上系统通常集成数十个或者上百个IP核,每个IP核都相当于传统意义的内存、处理器、DSP和AS
自动售货机是含有商品销售和物流配送的系统。随着科技的发展,自动售货机的功能也越来越多,比如在传统的自动售货机中装载无线模块,通过短信息传递来监控自动售货机的销售和机器运行状态,这样使得系统过程越来越复杂。为了使系统的开发人员、维护补给人员、监控管理人员对自动售货机系统的运行有一个统一的理解,合理的组织和优化企业内部物流配送方式,建立合理的物流控制系统,因此要建立可以精确模拟系统动态运行的模型,来定
随着通信技术和因特网技术的发展和广泛应用,越来越多的人们需要一种方便快捷的因特网接入服务,于是融合了异构网络互连和低成本高速率等优势的无线Mesh网络作为一种无线宽带接
普适家庭医疗系统具备医疗服务业与普适计算的特性。医疗行业是一个信息密集化的领域,信息安全尤为重要。普适计算,作为计算技术的第三代浪潮,具备上下文感知能力。这种特性