论文部分内容阅读
在图像分类及标注、文本及语音分类、基因功能分析等实际应用中,分类所面临的数据已呈现出多标签特性,多标签分类已成为分类研究中的一个重要研究方向。与单标签分类问题不同的是,多标签分类问题的目标是寻找与待测数据相联系的标签集或一组标签,而不是单一标签。长期以来,单标签分类问题得到了广泛而深入的研究,专家们提出了多种性能较好的分类算法,但是现有的面向单标签分类问题的算法并不能直接用来处理多标签的问题。因此,如何设计出有效的多标签分类算法已成为分类领域中的一个研究热点。
论文介绍了多标签分类问题的研究现状、相关技术,重点探讨了基于关联规则的多标签分类方法,并就多标签分类算法中所存在的一些不足,提出了相应的解决方案。另外,考虑到实际应用中最小支持度和训练样本数据库需要不断地被调整,提出了相应的增量式多标签分类算法。
论文的主要研究工作包括以下几个方面:
1、介绍了多标签分类问题的研究现状,阐述了基于关联规则的分类方法的研究进展。总结了分类、关联规则以及关联分类方法的基本思想和相关技术。
2、提出了一种基于关联规则的多标签分类方法MLCMBAR,该方法通过挖掘样本数据库中的频繁项目集来构造多标签精确关联分类规则,并就挖掘过程中出现的一些关键问题提出了相应的解决方案。实验结果表明,与现有的一些经典多标签分类算法相比,算法MLCMBAR具有良好的性能。
3、针对实际应用中相应参数需要不断被调整的情况,提出了一种增量式多标签关联分类算法MLIUAS。该算法能够充分利用旧支持度下的频繁项目集来高效生成新支持度下的所有频繁项目集,从而得到新支持度下的多标签精确关联分类规则。理论与实验结果表明,算法MLIUAS具有较好的性能。
4、针对实际应用中训练样本数据库需要不断更新的情况,提出了一种增量式的多标签关联分类算法MLIUD。该算法充分利用已有信息来发现最新训练数据库中的频繁多标签关联分类规则。理论与实验结果表明,该算法具有良好的性能。