论文部分内容阅读
本文对基于学习的自动文本分类中的若干基本问题进行了深入的研究,取得了一系列研究成果。现将论文中的主要内容归纳如下。 文本分类的性能评估 本文通过对多标号文本分类特点的研究,强调了正确使用文本性能评估指标的重要性。在逐个分析传统文本分类性能评估指标,如BEP值、F1值、查全率-查准率曲线等基础上,提出了两种新的性能评估指标:弃真率-取伪率曲线和风险平衡值。同传统评估指标相比,新指标更加直观和易于计算。 文本表示 众所周知,文本分类系统的性能不仅取决于学习算法,而且与文本表示方式密切相关。本文全面考察了停用词、词根、索引方式、特征权和规范化等主要因素对向量空间模型表示能力的影响。对大量仿真实验结果的统计分析表明,进行规范化处理总能大幅提高文本分类器的分类效果。而其他因素对文本分类性能的影响远没有预期的那么大。同人们的普遍认识相反,剔除停用词不仅不能改善文本分类效果,反而甚至会起到降低分类效果的作用。 字符串方式是一种与文本描述语言无关的文本表示方式。由于其存在着数据噪声大、计算复杂、易于过训练等缺点,人们通常认为其表示能力远不如主流文本表示方法——词袋表示法。随着计算机硬件的不断发展和高性能学习算法的涌现,考虑到对东方语言进行分词处理所面临的诸多困难,有必要重新审视字符串方式的文本表示能力。在语料库Reuters-21578上进行的大量实验结果表明,在表示能力方面字符串方式与词袋表示方式并无显著差异。 文本分类领域中一直存在着,通过特征权来改善文本表示能力的朴素思想,但相应的实验结果很不一致。事实上,在很多情况下基于不同特征权的文本表示方式在表示能力方面并不存在显著差异。为了解释这一现象,本文以Bayes分类器为基准分类器,从理论上研究了特征权向量对文本表示能力的可能影响,得出了特征权向量不可能有效改善文本表示能力的重要结论。 特征选择 在文本分类中,特征空间的维数高达几万,甚至远远超出训练样本个数,是一种Abst限et博十论文十分普遍现象。为了使学习算法变得可行,必须首先用特征选择方法降低特征空间的维数。本文提出了5种新的文本特征选择方法:低损降维、频率差、Bayes准则、Fl值准则和Fishe:鉴别量。大量实验结果表明,“低损降维”和“频率差”的降维能力可以与最好的两种经典特征选择方法“互信息”和“x’一统计量”相媲美,但计算效率更高。文本分类器 经典Fisher鉴别分析通过最大化类间散度和类内散度的比值来确定样本的最优投影方向。当类内散布矩阵为奇异矩阵时,最大化Fisher鉴别函数实际上是一个病态问题。因此,如何处理类内散布矩阵的奇异性成为Fisher鉴别分析的基本任务之一。与Fisher鉴别分析不同,本文提出的源于Fisher鉴别准则的大间距线性投影将充分利用类内散布矩阵的奇异性,来确定最优投影方向,并根据投影结果直接对样本进行分类。理论分析说明,大间距线性投影实际上是线性可分条件下线性支持向量机的一种特殊情况。 类间散度和类内散度是用来衡量投影样本可分性的两种不同指标。类间散度越大,投影样本的可分性就越好;类内散度越小,投影样本的可分性也越好。因此,寻求最大化样本可分性的投影方向,可以归结为求解一个多目标规划问题。Fisher鉴别准则通过最大化类间散度与类内散度的比值,从而将原来的多目标规划转化为单目标规划,本文提出的“最大散度差”则通过最大化两者的广义差来达到同样的目的。理论分析说明,大间距线性投影分类器是类内散布矩阵为奇异矩阵时,最大散度差分类器的极限情况。 “最小二乘误差”是用于确定线性鉴别函数的重要准则之一,它将寻找鉴别函数中的权向量的问题,归结为求解一个线性方程组。但是,如何求解这个线性方程组以获得所需的分离向量,以往的理论研究并不彻底,忽略了很多重要情况。另外,人们也未能明确给出依据该准则获得的解向量的物理含义。通过研究线性可分条件下“最小二乘误差”解的物理含义,本文提出了一个新的线性分类器—最小模最小二乘误差分类器。 大量实验结果表明本文提出的大间距线性投影、最大散度差和最小模最小二乘误差分类器在文本分类和人脸识别方面均具有十分良好的分类性能,可以与支持向量机相媲美。