论文部分内容阅读
分类问题是机器学习领域的一个重要研究方向,它通过学习数据发现其中的规律来构建一个分类模型,该模型将用于预测待分类数据的类别。传统意义上的分类多指单标签分类,即每个待分类样本被分类器指定唯一的标签作为类标签,根据数据集的特性,又分为平衡数据和不平衡数据。准确率是评价算法性能好坏的一个重要指标,算法的准确率越高代表算法的分类性能越好。关联分类算法是一种挖掘关联规则用于分类的算法,具有规则多、分类精度较高的优点。然而关联分类算法虽然产生的规则多,但是其中高质量的规则少,尤其是针对不平衡数据难以有效地提取高质量地小类规则,不能很好的兼顾整体准确率和小类分类性能。此外,现实中许多数据往往具有不止一个标签,这类数据被称为多标签数据,多标签数据的分类的就是要为每一个样本尽可能地标注出所有与其相关的标签,但是多标签数据往往数据量庞大且维数众多,难以直接进行有效进行学习。因此需要对数据集进行降维。传统的一些特征选择算法对部分标签没有保留足够的重要特征,导致分类算法难以有效对特征选择后的数据集进行学习。本文针对以上问题在算法层面上做了以下三个研究。首先,针对传统的关联分类算法产生的冗余规则较多,而高质量规则占比较少,容易导致待测实例被误判的问题,提出一种对训练集进行多次学习的关联分类算法IAMC。IAMC算法提取规则时,采用新度量关联度度量规则,并对训练集随机抽取实例多次学习,提取了大量规则,同时有效地提高了生成的规则的质量。此外在提取关联规则后,对仍然被错误分类的实例建立决策树重新提取规则,并将新提取的规则加入规则集中。实验结果显示,本文算法IAMC在多个数据集上比经典的关联分类算法具有更高的分类准确率。其次,针对传统的关联分类算法难以有效提取高质量的小类规则,很难同时兼顾整体准确率和小类分类性能的问题,提出一种使用类支持度挖掘关联规则的改进算法—ACCS。该算法根据训练集中各类数量大小关系对每个类单独设定类支持度阈值,使用类支持度阈值独立挖掘各类的关联规则。采用类支持度对置信度相同的规则排序,有效地提高了小类规则的排序优先级。实验结果显示,ACCS算法不仅具有较高地整体分类准确率,同时还具有很好的小类的分类性能。最后,针对传统的多标签数据特征选择算法没有考虑标签重要性,生成的特征子集不够合理的问题,提出一种基于标签重要性的多标签特征选择算法MILR。该算法使用互信息作为度量,将标签分为重要标签和非重要标签两组,然后使用信息增益度量各标签与各特征间的关系,对每个重要标签特征都按照与该标签的相关性从大到小排序,选取所有与该标签相关特征,对非重要标签只选取与超过一半非重要标签同时相关的的特征,然后将所有选取的特征合在一起,再次去除其中的冗余特征,形成特征子集。实验结果表明MILR算法上能有效去除冗余特征,得到的特征子集在多个数据集上具有较好的分类效果。