论文部分内容阅读
在机器学习领域,人们能以低成本获取海量的未标记样本,但获取已标记样本却较为困难,甚至需要专业的人员与设备对样本进行标记。半监督学习可在少量已标记样本的指导下,充分利用未标记样本来获得性能良好的分类器,已逐渐成为国内外研究的一个热点问题。协同学习作为半监督学习的重要分支之一,已取得了诸多的研究成果。对于协同学习算法,通常使用少量的已标记样本训练出两个或多个基分类器,在迭代学习过程中,每个分类器可利用其他的分类器对未标记样本的预测结果扩展训练样本集,从而使分类器性能不断提高。但是,当已标记样本较少时,基分类器的初始性能往往较弱,预测时容易对未标记样本赋予错误的标记,进而影响算法的最终精度。针对上述问题,本文以提高基分类器初始性能与改进未标记样本的选择策略为切入点,对协同学习算法进行改进,并应用于侧信道攻击领域,取得了良好效果。本文的主要成果包括:1.针对协同学习算法基分类器初始性能较弱的问题,本文结合局部与全局一致性(LLGC)算法,提出了基于LLGC的协同学习算法,并根据基分类器的不同,算法可分为Co-LLSVM算法和Co-LLRF算法。该算法充分发挥了LLGC算法利用少量已标记样本精确预测未标记样本类别的特点,为基分类器的训练提供了大量带有标记的样本,提高了分类器的初始分类精度,从而通过迭代使分类器性能不断提高。算法利用公共的数据集7-sectors进行实验,结果表明在已标记样本数较少时Co-LLSVM、Co-LLRF相比于标准协同学习算法具有更好的性能,并且Co-LLRF在处理噪声样本问题时比Co-LLSVM具有更好的效果。2.为了提高协同学习算法选择未标记样本的能力,本文对Co-training算法选择未标记样本的策略进行改进,并将改进的算法应用到侧信道攻击领域。该算法在使用阈值处理置信度的同时,结合Tri-training投票判定置信度的方法共同完成未标记样本的选取,增强了所选样本的可信度,从而使分类器性能得以提高。通过对数据集DPA contest V4进行攻击实验,结果表明该算法比标准协同学习算法和单纯的监督学习算法的正确率更高。