论文部分内容阅读
随着机器学习理论在指纹识别、图像检索、信用分析、网页推荐等数据分析和数据挖掘领域中的广泛应用,主动学习已经成为模式识别和机器学习中的重要研究领域,并且在理论和实际应用研究中都已获得了长足的发展。主动学习研究主要关注在标记样本较少时,如何利用大量未标记样本来改善学习器性能,它改变了传统的机器学习方式从已知样本集中进行被动学习的方法,而是根据学习进程,主动选择最佳的样本进行学习,解决了传统学习方法对少量标记样本进行学习泛化能力较差的问题。基于支持向量机的主动学习算法和基于专家委员会的主动学习算法是两种研究较多的主动学习算法,但目前仍然存在学习效率不是很高,训练样本标注代价过大,对不平衡数据学习能力较差等问题。本文首先介绍了主动学习模型及其研究的内容,总结了主动学习与其他机器学习方法的区别与联系,对主动学习领域的国内外研究现状进行回顾,介绍了目前主动学习方法研究的几个思路。接着,本文详细介绍了我们在主动学习方法研究领域开展的工作:1.讨论了基于不确定度缩减的主动学习方法,深入研究了该类方法中基于支持向量机的主动学习算法。针对SVM主动学习过程中,对不平衡数据集学习能力较差的问题,本文提出了一种基于SMOTE的支持向量机主动学习算法。该算法将处理小样本数据的SMOTE算法引入SVM主动学习过程中,解决了SVM主动学习在学习过程中,分类超平面偏向少数类的问题,提高了学习的速度和准确率。2.深入研究了基于版本空间缩减的主动学习方法中最具有代表性的主动学习算法——基于专家委员会的主动学习算法。总结了该算法中委员会成员分歧度的度量方式。深入研究了基于专家委员会的主动学习算法中的委员会成员的构建方法和样本选择策略,并提出了一种改进的基于选择的专家委员会主动学习算法,算法的改进主要体现在三个方面:(1)将选择集成的思想引入到委员会成员的构建过程中,将生成的专家委员会中分类性能高,相互之间差异较大的委员会成员挑选出来重新构造一个新的专家委员会,利用新组建的专家委员会对无标注样本进行选择提交标注。(2)在选择集成的过程中,本算法并没有采用基于遗传算法的选择性集成方法,而是改用了另一种智能优化算法--粒子群优化算法,在委员会成员的权重优化过程中,粒子群算法比遗传算法精度更高、收敛速度更快,且在算法实现及操作方面更加容易。(3)在委员会对样本分歧度计算方面,我们采用了投票熵和KL-d分歧度相结合的方式,使委员会选择的未标注样本更加丰富多样。3.深入研究了Decorate算法,对Active-Decorate主动学习算法中,人工虚拟样本的产生方法进行改进,改进后的算法,不仅仅使用带类别标注的训练样本数据计算均值和方差,而是使用带类别标注的和未带标注的样本集共同计算样本的均值和方差。这样产生的高斯分布函数才会更加接近真实的样本概率分布。并将改进后的Active-Decorate主动学习算法与选择集成学习方法相结合,组成基于选择性的Active-Decorate主动学习算法。