关联分类的改进及多标签分类的特征选择研究

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:ladiylove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是机器学习领域的一个重要研究方向,它通过学习数据发现其中的规律来构建一个分类模型,该模型将用于预测待分类数据的类别。传统意义上的分类多指单标签分类,即每个待分类样本被分类器指定唯一的标签作为类标签,根据数据集的特性,又分为平衡数据和不平衡数据。准确率是评价算法性能好坏的一个重要指标,算法的准确率越高代表算法的分类性能越好。关联分类算法是一种挖掘关联规则用于分类的算法,具有规则多、分类精度较高的优点。然而关联分类算法虽然产生的规则多,但是其中高质量的规则少,尤其是针对不平衡数据难以有效地提取高质量地小类规则,不能很好的兼顾整体准确率和小类分类性能。此外,现实中许多数据往往具有不止一个标签,这类数据被称为多标签数据,多标签数据的分类的就是要为每一个样本尽可能地标注出所有与其相关的标签,但是多标签数据往往数据量庞大且维数众多,难以直接进行有效进行学习。因此需要对数据集进行降维。传统的一些特征选择算法对部分标签没有保留足够的重要特征,导致分类算法难以有效对特征选择后的数据集进行学习。本文针对以上问题在算法层面上做了以下三个研究。首先,针对传统的关联分类算法产生的冗余规则较多,而高质量规则占比较少,容易导致待测实例被误判的问题,提出一种对训练集进行多次学习的关联分类算法IAMC。IAMC算法提取规则时,采用新度量关联度度量规则,并对训练集随机抽取实例多次学习,提取了大量规则,同时有效地提高了生成的规则的质量。此外在提取关联规则后,对仍然被错误分类的实例建立决策树重新提取规则,并将新提取的规则加入规则集中。实验结果显示,本文算法IAMC在多个数据集上比经典的关联分类算法具有更高的分类准确率。其次,针对传统的关联分类算法难以有效提取高质量的小类规则,很难同时兼顾整体准确率和小类分类性能的问题,提出一种使用类支持度挖掘关联规则的改进算法—ACCS。该算法根据训练集中各类数量大小关系对每个类单独设定类支持度阈值,使用类支持度阈值独立挖掘各类的关联规则。采用类支持度对置信度相同的规则排序,有效地提高了小类规则的排序优先级。实验结果显示,ACCS算法不仅具有较高地整体分类准确率,同时还具有很好的小类的分类性能。最后,针对传统的多标签数据特征选择算法没有考虑标签重要性,生成的特征子集不够合理的问题,提出一种基于标签重要性的多标签特征选择算法MILR。该算法使用互信息作为度量,将标签分为重要标签和非重要标签两组,然后使用信息增益度量各标签与各特征间的关系,对每个重要标签特征都按照与该标签的相关性从大到小排序,选取所有与该标签相关特征,对非重要标签只选取与超过一半非重要标签同时相关的的特征,然后将所有选取的特征合在一起,再次去除其中的冗余特征,形成特征子集。实验结果表明MILR算法上能有效去除冗余特征,得到的特征子集在多个数据集上具有较好的分类效果。
其他文献
情境教育教学在世界范围内得到了极大发展,我国的情境教学和国外的情境学习就是其中的典型代表。我国的情境教学和国外的情境学习两者有许多差异,其中一个的重要区别就在于对
目的评价核酸与血清学抗体检测在手足口病诊断及防控中的应用价值。方法对2017年5月至2019年2月成都儿童专科医院收治的手足口病患儿进行肠道病毒71型(EV71)及柯萨奇病毒A16
北大荒的开发建设者在艰苦的条件下将莽莽荒原变成千里沃野,伴随着北大荒人的创业实践,诞生了伟大的北大荒精神。北大荒精神继承了中华民族传统美德、光荣红色传统和优秀民族
本文采用汉字仿写测验任务,考察了南疆乡村少数民族学前儿童汉字早期书写能力发展特点以及与之相关的认知技能,为南疆乡村幼儿园更好地开展国家通用语言文字教育提供依据。结
脱硫废水是燃煤电厂最难处理的废水之一,目前较常用的软化方法是双碱软化法,但此种方法运行费用昂贵。以新疆某火力发电厂脱硫废水为研究对象,探究了双碱软化法和三碱软化法
目的 探讨新型冠状病毒肺炎疫情控制期高中生抑郁症状与自学能力及父母教养方式的关系,为开展青少年心理健康和学习能力的家庭干预提供参考.方法 2020年2月,采用分层整群抽样
目的调查深圳市福田区社区医务人员食源性疾病知信行及其临床诊断能力并分析相关因素,为疾病预防控制机构和医院内部的培训工作提供理论依据。方法采用分层抽样方法,于2019年
会议活动是市委工作的主要方式之一,是市委办公室工作的重要组成部分。结合多年的工作经历和当前实际,我感到做好新形势下市委会议活动服务,必须着力在三个方面创新突破、务
桩网结构路基广泛应用于公路、铁路等交通基础设施建设,是处理软土地基沉降变形的有效、经济的工程措施。其主要荷载传递机理是土拱效应,已有的研究侧重于平面土拱分析,对其三维空间特性如土拱形成-演化过程中路堤土体内部滑裂面的分布和荷载传递路径、布桩形式对路堤沉降变形的影响、与加筋体的拉膜效应耦合作用等方面,缺乏较为清晰的认识。因此,本文基于离散元方法从宏细观角度探讨空间土拱效应的演化机理。研究内容及结论如
以聚丙烯腈(PAN),N,N-二甲基甲酰胺(DMF)和钴盐为前驱体,通过对有机凝胶进行高温碳化得到钴负载碳气凝胶.利用X射线衍射谱(XRD),扫描电镜(SEM),透射电镜(TEM),热重分析(TGA)