论文部分内容阅读
分类是数据挖掘领域的一个重要技术。在数据独立同分布的假设下,分类技术根据已有的带有类别标签的训练样本建立分类模型,并利用该模型尽量准确地对新的数据样本进行预测与分类。但是在实际应用中,满足独立同分布条件的训练样本往往相当缺乏,造成分类模型的准确率下降。近年来,为了解决训练样本不足的问题,学者们提出了主动学习和迁移学习两类方法。主动学习的目的是选取少量的具有代表性的数据样本,并由领域专家给这些样本标注类别标签,以使其成为训练样本。然后,主动学习可以用这少量的具有代表性的训练样本建立准确率高的分类模型,从而减少了对训练样本的数量的需求。另一类方法叫做迁移学习。迁移学习的目的是借助来自其他领域的,不满足数据独立同分布的训练样本,帮助目标领域建立分类模型,从而减少了对目标领域的训练样本的要求。
但是,在解决训练样本缺乏的问题上,主动学习和迁移学习各有不足。一方面,主动学习对训练样本的需求依然很大,造成某些领域获得训练样本的代价依然很高;迁移学习虽然可以以零代价获得训练样本,但是从其他领域迁移过来的训练样本有可能与目标领域分布差异很大,造成“负迁移”,即使得分类模型的准确率下降。为了更好地解决训练样本不足的问题,在这两类方法的基础上,本文提出了主动迁移学习的模型。本文结合主动学习的思想,解决负迁移的问题;并利用了迁移学习来降低主动学习中获得训练样本的代价。理论和实验证明本文提出的模型能有效地避免负迁移,提高分类的准确率,并有效地降低获得训练样本的代价。
另外,为了说明主动迁移学习模型的有效性,本文还以文本分类为例,分析了迁移学习的实际例子,并结合向量准换、特征选择、降维等技术,解决了文本分类所面临的训练样本严重缺乏所导致的分类效果不理想的问题。基于文本挖掘的实验也证明了该算法能有效地避免负迁移,并且有比较好的实用性与比较理想的分类效果。