论文部分内容阅读
数据分类是机器学习中最基础的任务之一。随着现代化计算机技术逐步覆盖材料信息、工业系统等众多领域,数据的采集获取已成为现实。通过对获取到的数据进行分类,可以揭示出研究对象潜在的、本质的分布结构。然而由于实际工程及自然环境的复杂性,所获取到的数据往往具有不确定性、多特征性和不完备性等特点,具体表现在数据在特征空间分割不明确、多维特征、已标号样本量不足这三个方面,给数据分类工作造成困难。传统的数据分类方法往往出现分类准确性差甚至失效的情况。置信函数理论因其具有完备的不确定性表征能力和多源不确定信息融合能力,为此类复杂数据的分类问题提供了可行的数学框架。因此,本文在置信函数理论框架下,围绕数据分类问题,开展了以下研究:(1)针对多特征数据的数据分类问题,考虑到不同特征往往具有不同的重要性,在置信函数理论框架下,本文提出了一种基于加权特征证据融合的监督型分类模型。首先,该模型将不同特征视为支持样本类别归属问题的多源证据,并利用核密度估计方法来量化证据信息。其次,引入证据权重,并利用Pignistic概率转换设计了最小化训练集样本分类误差的优化目标来自学习该权重参数。最后,通过加权融合多个特征证据给出测试样本的置信划分,可表征出复杂样本类别归属的不确定性。该模型属于无参数分类器。公共数据集上的对比实验证明了该模型的有效性。进一步地,该模型被应用于大气腐蚀性研究这一实际工程问题,挖掘出了关键环境因素对大气腐蚀性的影响,为揭示大气腐蚀机理提供理论技术支持。(2)针对仅含有极少量已标号样本、不足以表征各类别数据真实分布的数据分类问题,在置信函数理论框架下,本文提出了一种基于软证据标签传播的半监督分类模型。首先,引入基本置信分配函数作为样本的软证据标签,以准确量化样本类别归属的不确定性及异常性。其次,设计了一种基于多源证据融合的软标签传播机制。在该机制下,未标号样本将通过吸收近邻样本的标签信息来迭代更新自身的标签,可避免人为设定信度阈值的影响。公共数据集上的对比实验表明,该模型对于多特征数据和图结构数据均能有效完成分类任务,并对模型关键参数具有较好的鲁棒性。进一步地,该模型被应用于大气腐蚀等级预测这一实际工程问题,在仅有少量已知腐蚀等级的腐蚀数据条件下,准确预测出了观测地区属于不同大气腐蚀等级的概率,为大气腐蚀程度评估提供理论技术支持。(3)针对未知类别总数且不含有任何已标号样本的数据聚类问题,在置信函数理论框架下,本文提出了一种基于信度峰的软标签传播聚类模型。该模型旨在挖掘出数据集中存在的类别总数、并给出数据集的软划分。首先,提出了一种改进的信度测度来表征样本是类簇中心样本的可能性,从而在不依赖大量近邻样本的前提下准确检测出类簇中心样本和异常样本。其次,采用软标签来表征非类簇中心样本在类别归属上的不确定性,并提出了 一种新的包含距离及信度信息的近邻权重计算方法。最后,在线性软标签传播机制下,各样本将通过吸收其近邻样本的标签信息来更新自身的标签。该模型输出样本的软划分,可表征样本类别归属的不确定性。公共数据集上的对比实验证明了该模型的有效性,并对模型参数具有较好的鲁棒性。进一步地,该模型被应用于海水腐蚀性研究这一实际工程问题,揭示出了低合金钢材料的耐蚀化学成分,为新材料研发提供理论技术支持。本文工作不仅促进了置信函数理论在数据分类任务上的基础理论研究,而且推动了其与材料腐蚀学科的交叉,为腐蚀科学研究提供了 一种新的研究思路与方法。