论文部分内容阅读
分类是用训练样本建立的模型将测试样本分到一个或多个类中。传统的单标签分类问题是假设类之间相互独立,一个样本仅能归为其中一类,而在实际应用中,样本会和多个类相关联,需将样本同时归到多个类,这就是多标签分类问题。目前,多标签分类算法的研究已经取得了很多成果,大致可分为算法有关和算法无关两大类方法。算法有关的方法虽然没有改变数据的结构以及类与类之间的联系,但是由于它需要花费大量时间去解优化问题,因此难于应用到较大规模的数据集。算法无关的方法不需要考虑标签的相关性,因此易于实现,并且运行速度较快。从分解的角度可将算法无关的方法分为一对一分解、一对多分解以及幂集法等。由于一对一分解出的数据集规模比一对多要小,并且分解出的两类样本的数量更平衡,因此,一对一分解策略更受科研人员的青睐。
本文采用一对一分解策略,将多标签分类问题分解成k(k-1)/2个两类单标签和两类双标签的分类子问题,对分解后的数据子集建立LS-SVM分类模型,当出现两类单标签子问题时,使用传统的LS-SVM分类算法直接处理;当出现两类双标签时,将同时拥有两个标签的样本看成混合类,并将标签值设为0,对新的数据子集再用LS-SVM分类器进行处理。两类双标签建立的分类模型一般将分类阈值t设为±0.5。为了得到更佳的分类阈值,本文根据正类-混合类、负类-混合类的数据分布分别求得两个分类阈值,通过实验比较说明优化分类阈值能改善算法的性能。最后,利用投票方法将测试数据分到一个或多个类中。
在算法的实验部分,本文归纳了不同的预测评价准则,并介绍四个基准的数据集以及数据集标签的描述。对情感、景象、酵母和基因这四个数据集分别采用本文的方法预测,对于参数γ和σ2选择,LS-SVM模型采用网格搜索的方法,设定这两个参数的可行区间,由计算机自动对各参数变量组合并逐一择优,使用留一法选取最佳参数值。对情感数据集的预测结果说明,本文的方法在汉明损失、准确度、1错误率以及排序损失上都有较好的结果,而其他几个评价标准也均列在前列;景象数据集上的实验结果表明,本文的预测方法在汉明损失和查全率上具有较好的结果;本文采用的方法在酵母数据集上有较高的查全率;而对基因数据集,现存的多标签分类方法以及本文所采用的基于LS-SVM算法均有较好的预测效果。对本文的算法和现存的多标签分类算法的比较结果显示,没有一个算法能够保证其预测结果在所有的评价准则上都是最优的,但是本文的算法在某些性能上优于现有的算法。