论文部分内容阅读
数据偏斜和噪声数据是文本自动分类应用中经常遇到的问题。在数据偏斜的情况下,样本无法准确反映整个空间的数据分布,分类器容易受到大类的影响而忽略小类。大多数分类算法都是面向均匀分布数据提出的,对于数据偏斜的情况,仅利用传统的分类方法并不能取得理想的效果。另一方面,分类器的质量很大程度上取决于训练文本集的质量。一般说来,训练文本集类别越准确、内容越全面,得到的分类器质量就越高。但是在实际应用中,这种全面准确的训练文本集是很难得到的,尤其是在数据规模很大的情况下,更是如此。在真实的文本分类应用中,训练数据一般都不可避免的含有噪声,这些噪声样本将对最终的分类结果产生重要影响。我们结合LDA(Latent Dirichlet Allocation)概率主题模型,针对上述两种情况,提出了基于概率主题模型的数据偏斜分类方法和噪声处理方法。利用LDA概率主题模型潜在的全局语义信息,人工生成新的训练文本,能够取得比传统方法更好的效果。本文的主要工作和特色如下:首先,提出了一种基于LDA概率主题模型的文本生成方法。首先采用Gibbs抽样算法从训练文本集中抽取LDA模型,然后利用LDA模型的生成过程思想构造属于训练文本集的新文本。实验表明,生成的新文本与原来的训练文本集有较高的相似性,同时也不存在过度拟合现象。其次,针对文本分类中的数据偏斜现象,结合LDA概率主题模型,提出了一种新的数据偏斜文本分类方法DECOM。该方法不但解决了传统过采样方法不可避免的过度拟合问题,还在一定程度上扩大了稀有类别在文本空间上的范围。在多个数据集上面的实验结果表明,DECOM方法比其他数据偏斜处理方法更适用于文本分类问题。最后,提出了一种利用LDA概率主题模型处理噪声的文本分类方法。根据类别熵对噪声样本进行过滤,然后利用主题模型的生成过程进行数据平滑,进一步减弱噪声样本的影响,同时保持了训练集的原有规模。在真实数据上的实验表明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍然能够提供较好的分类结果。通过详细的理论分析和实验验证表明,概率主题模型的引入能够很好的提取并利用文档集合中包含的语义信息,使得文本分类方法在复杂应用中获得更好的效果。