论文部分内容阅读
随着互联网的快速发展,网络已成为主流信息的载体。在海量信息中,文本是信息的主要表达形式,文本数据中包含大量丰富的知识,因此对文本数据进行有效且高效的处理是十分必要的。其中,文本分类是一种重要的数据分析方法,它能够提取、刻画出重要数据类的模型,使得计算机可以从过去的数据中获取知识,解决问题。传统的文本分类方法为了使得学习效果最佳,对训练数据有很高的要求。比如:传统方法要求训练数据有充足的已标注数据、噪音越少越好,训练数据和测试数据的概率分布相同等等。在通常情况下,这些条件并不能被满足。因此,对一个新目标域进行学习时,若已标注的数据不充足,会直接影响学习效果。在这类问题的驱动下,我们注意到那些过期的、已学习的数据还有很大的利用价值,但由于过期数据的概率分布与目标域的概率分布不同,不能被直接使用。因此,需要利用迁移学习方式解决上述问题。迁移学习是一个崭新的学习框架,该框架的思想是举一反三、触类旁通,对训练数据和测试数据的要求少,并且迁移可以在相同或不同的领域之间进行。比如,我们可以通过迁移学习将过期数据中有价值的部分筛选出来,并将其应用到目标任务的学习中。近几年,迁移学习的思想逐渐走入人们的视野之中,同时也受到文本挖掘、自然语言处理、信息检索等相关领域研究者越来越多的关注。本文针对目标领域已标注数据过少的情况,对二分类问题进行研究。PU学习是解决二分类问题的方法之一,是半监督文本分类算法的一种。传统的两阶段PU学习过程包括抽取可信反例和利用正例、可信反例训练分类器两部分。本文以此为基础,在两个阶段中分别引入迁移学习的思想,提出改进PU算法--TransferPU。TransferPU从两个角度对知识进行迁移。首先从特征表示的角度进行考虑,提出强特征和弱特征概念,利用相近领域的可用特征对目标领域的特征进行补充,使正例特征集更加完备,从而提升描述正例的能力;然后从实例的角度进行考虑,改进后的算法Transfer1DNF利用强正例特征集和弱正例特征集过滤无标注实例集合,在选取可信反例的同时获得一部分候选正例与反例,对目标领域中的少量可用实例进行扩充;最后,利用改进后的分类算法TransferISVM对正例及反例进行学习训练,得到二分类器。最后,我们在20NewsGroup数据集上对TransferPU算法进行验证,并与已有的两种非迁移学习算法进行全面比较。实验结果表明引入迁移思想的PU分类方法可以很好地抽取正例特征,获得充足的可信反例,提升当目标领域正例数据量较少时分类器的性能。