论文部分内容阅读
在医疗健康服务领域,数据分析技术常用于辅助医生进行疾病诊断。在诊断慢性病时,由于其成因复杂并有很大的概率可能引发相应的并发症,导致许多患者可能同时患有超过一个疾病,因此慢性病的辅助诊断模型需要为医生推荐多个可能的疾病,从而帮助医生发现患者更多潜在的疾病。由于多标签学习算法可以同时输出多个与预测样本相关的结果,所以多标签学习算法是一种非常适用于构建慢性病的疾病诊断模型的算法。但是,现有的多标签学习算法在医疗数据分析上还存在很多局限性。论文以提升慢性病的辅助诊断模型性能为目标,针对多标签学习算法在分析医疗数据中存在的几个关键问题进行了研究。主要工作如下:(1)针对医疗数据中的类别非均衡现象会导致多标签分类学习模型性能降低的问题,提出了一种融合多类集成分类的成对聚合多标签学习算法。对于每一个标签,该算法将多标签学习任务分成一个二元分类任务和多个多分类任务,然后训练一个二元分类器,以及利用一个基于正则化的多类集成分类算法来构建多类分类器,最后聚集二元分类器和多类分类器来预测样本的标签,以提升多标签算法处理非均衡数据的能力。在医疗数据集上实现该算法,并对比其他多个多标签算法的实验结果,验证了融合多类集成分类的成对聚合多标签学习算法在分析非均衡医疗数据上的优越性。(2)针对采用医疗数据的所有症状指标训练的多标签学习模型的准确度较低和训练效率较低的问题,提出了一种基于特征信息的多标签学习算法。该算法首先采用概率邻域图模型计算特征空间中实例的相关性,然后采用余弦相似性计算标签空间中标签的相关性。对于多标签数据,该算法不仅可以实现为每个标签选出标签特定特征的功能,而且还可以实现为样本预测一组相关的标签的功能。在医疗数据集上的实验结果表明该算法在提升慢性病的辅助诊断模型性能的效用。此外,本文还使用其他的公开数据集进行实验,验证了该算法的通用性和优越性。(3)为了分析多种疾病的相关性,提升多标签学习模型的准确性和高效性,提出了一种基于标签相关性的快速RAkEL算法。为了实现充分利用标签的相关性,该算法首先基于欧几里得相似度计算每个样本的k近邻,并为每个标签构建标签近邻标记矩阵和标签近邻缺失矩阵,然后分别根据标签近邻标记矩阵的相似度和标签近邻缺失矩阵的相似度来衡量标签的正相关性和负相关性,最后根据标签正相关性和负相关性来选择标签子集。选定标签子集后,对于每一个标签子集,首先采用回归模型把样本分为相关与不相关的两个类,接着用LP模型训练相关的样本,从而实现高效的多标签学习。通过在医疗数据集上进行实验,验证了提出的算法能够提高慢性病的辅助诊断模型的精度和效率。并且,在其他公开数据集上的实验结果表明该算法具有更优越的性能。