论文部分内容阅读
在机器学习中,主动学习可以避免分类模型被动地接受样本信息,有选择地从未标注样本集中选取信息量最大的样本进行专家标注,然后通过对较少的大信息量样本进行学习,得到代价小、性能高的分类器。随着获得的未标注样本数据越来越多,人工标注的代价较高并且难度较大,因此,需要对选择标注的样本数量严格控制。本文针对主动学习采样过程中存在的问题,在借鉴国内外最新思路的基础上,研究改进了一些主动学习和样本选择算法。首先,在充分考虑样本不确定性置信度模型和样本代表性置信度模型的基础之上,讨论了基于样本不确定性和代表性相结合的可控主动学习算法,通过设置合适的分类正确率变化参数,实现主动学习选择样本数量的可调控制。其次,在基于原型的主动学习基础上,为解决样本不确定性置信度模型和样本代表性置信度模型在结合方式上缺乏适应性的问题,引入偏倚赖权值系数函数,研究了基于不同样本属性综合的鲁棒偏倚赖主动学习算法。该算法利用偏倚赖权值系数函数充分挖掘不同样本属性,突出样本特性,解决针对不同样本两个模型不能够自适应协调的问题。最后,为有效进行大训练样本集的约减,使分类模型学习代价减小,实现了基于改进加权压缩近邻与最近边界规则SVM样本约减选择算法,该算法利用减法聚类消除算法初值敏感问题,利用随机小样本池技术加快算法进程,去除了训练集中的冗余。