自动文本分类若干基本问题研究

被引量 : 0次 | 上传用户:nany_x
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对基于学习的自动文本分类中的若干基本问题进行了深入的研究,取得了一系列研究成果。现将论文中的主要内容归纳如下。 文本分类的性能评估 本文通过对多标号文本分类特点的研究,强调了正确使用文本性能评估指标的重要性。在逐个分析传统文本分类性能评估指标,如BEP值、F1值、查全率-查准率曲线等基础上,提出了两种新的性能评估指标:弃真率-取伪率曲线和风险平衡值。同传统评估指标相比,新指标更加直观和易于计算。 文本表示 众所周知,文本分类系统的性能不仅取决于学习算法,而且与文本表示方式密切相关。本文全面考察了停用词、词根、索引方式、特征权和规范化等主要因素对向量空间模型表示能力的影响。对大量仿真实验结果的统计分析表明,进行规范化处理总能大幅提高文本分类器的分类效果。而其他因素对文本分类性能的影响远没有预期的那么大。同人们的普遍认识相反,剔除停用词不仅不能改善文本分类效果,反而甚至会起到降低分类效果的作用。 字符串方式是一种与文本描述语言无关的文本表示方式。由于其存在着数据噪声大、计算复杂、易于过训练等缺点,人们通常认为其表示能力远不如主流文本表示方法——词袋表示法。随着计算机硬件的不断发展和高性能学习算法的涌现,考虑到对东方语言进行分词处理所面临的诸多困难,有必要重新审视字符串方式的文本表示能力。在语料库Reuters-21578上进行的大量实验结果表明,在表示能力方面字符串方式与词袋表示方式并无显著差异。 文本分类领域中一直存在着,通过特征权来改善文本表示能力的朴素思想,但相应的实验结果很不一致。事实上,在很多情况下基于不同特征权的文本表示方式在表示能力方面并不存在显著差异。为了解释这一现象,本文以Bayes分类器为基准分类器,从理论上研究了特征权向量对文本表示能力的可能影响,得出了特征权向量不可能有效改善文本表示能力的重要结论。 特征选择 在文本分类中,特征空间的维数高达几万,甚至远远超出训练样本个数,是一种Abst限et博十论文十分普遍现象。为了使学习算法变得可行,必须首先用特征选择方法降低特征空间的维数。本文提出了5种新的文本特征选择方法:低损降维、频率差、Bayes准则、Fl值准则和Fishe:鉴别量。大量实验结果表明,“低损降维”和“频率差”的降维能力可以与最好的两种经典特征选择方法“互信息”和“x’一统计量”相媲美,但计算效率更高。文本分类器 经典Fisher鉴别分析通过最大化类间散度和类内散度的比值来确定样本的最优投影方向。当类内散布矩阵为奇异矩阵时,最大化Fisher鉴别函数实际上是一个病态问题。因此,如何处理类内散布矩阵的奇异性成为Fisher鉴别分析的基本任务之一。与Fisher鉴别分析不同,本文提出的源于Fisher鉴别准则的大间距线性投影将充分利用类内散布矩阵的奇异性,来确定最优投影方向,并根据投影结果直接对样本进行分类。理论分析说明,大间距线性投影实际上是线性可分条件下线性支持向量机的一种特殊情况。 类间散度和类内散度是用来衡量投影样本可分性的两种不同指标。类间散度越大,投影样本的可分性就越好;类内散度越小,投影样本的可分性也越好。因此,寻求最大化样本可分性的投影方向,可以归结为求解一个多目标规划问题。Fisher鉴别准则通过最大化类间散度与类内散度的比值,从而将原来的多目标规划转化为单目标规划,本文提出的“最大散度差”则通过最大化两者的广义差来达到同样的目的。理论分析说明,大间距线性投影分类器是类内散布矩阵为奇异矩阵时,最大散度差分类器的极限情况。 “最小二乘误差”是用于确定线性鉴别函数的重要准则之一,它将寻找鉴别函数中的权向量的问题,归结为求解一个线性方程组。但是,如何求解这个线性方程组以获得所需的分离向量,以往的理论研究并不彻底,忽略了很多重要情况。另外,人们也未能明确给出依据该准则获得的解向量的物理含义。通过研究线性可分条件下“最小二乘误差”解的物理含义,本文提出了一个新的线性分类器—最小模最小二乘误差分类器。 大量实验结果表明本文提出的大间距线性投影、最大散度差和最小模最小二乘误差分类器在文本分类和人脸识别方面均具有十分良好的分类性能,可以与支持向量机相媲美。
其他文献
本文对 P~+-P-N-N~+型半导体器件在正向导电情况下器件各区电势,导电载流子输运作了分析,研讨了各区能量转换效应。得出正向导电时的结压降损耗是以载流子复合方式损耗在 P、
卖淫作为一种由来已久的社会现象,虽让人津津乐道,却少有学术研究。近二十几年来,我国的卖淫女群体正经历一个不断壮大的过程。随着社会的不断发展,越来越多的人开始关注这一边缘
我国加入WTO后,发展个人金融业务具有重要意义,一方面是城乡居民合理利用个人财富实现财产增值的客观需要,另一方面是银行业应对外来竞争,提高核心竞争力的重要举措。 本文通
采用聚合酶链式反应-变性梯度凝胶电泳技术及扩增产物序列分析方法,研究了呼伦贝尔5种草地类型(线叶菊草原、贝加尔针茅草原、羊草草原、大针茅草原、克氏针茅草原)土壤氨氧
目前,我国工程招投标中存在比较严重的腐败现象,出现不少豆腐渣工程,出现“大楼起来了,干部倒下了”等现象,全国不少交通厅长、副厅长“相继落马”,工程领域反腐败工作刻不容缓。其
本文探析了包装设计教育中应强调实践技能教学的重要性。通过实践技能教学,有利于加强知识型、应用性人才的培养,从而提高专业素质教育。确立因应时代需求人才培养的教学观念
甾体激素药物由于其特有的生理活性而广泛应用于治疗各种疾病和作为避孕药的重要组份,目前其来源主要是由天然甾体资源经化学或生物改造而成。本文参考有关文献,以雄烯二酮(AD)
2009年3—10月,对宁夏盐池四墩子不同植被类型和人工干扰强度的荒漠草地的拟步甲昆虫群落结构及其环境因子特征进行了调查,采用多样性指数和典范对应分析(CCA)研究了昆虫群落
对629名女大学生进行自我客体化问卷测试,探讨当代女大学生的自我客体化现状。结果发现:a.女大学生自我客体化水平得分负值居多,负值占调查总数58.6%,正值比例为41.4%,平均值
求职从宏观的高度来看是就业,国计民生系于此,从微观来看也关系到个人的安身立命。因而一直都是学者研究的热点。但运用社会关系网络求职却一直还只是停留在人们的经验水平,理论