基于因子分析的文本分类

来源 :东北大学 | 被引量 : 0次 | 上传用户:huangyp2002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从20世纪90年代以来,伴随互联网的飞速发展,出现了大量的电子文档。如何对这些无结构的自然语言文本进行有效的管理和使用成为一个重要的研究问题。一些自然语言的处理技术例如信息检索、数据挖掘、文本分类等快速地发展起来。 文本分类是信息处理的一个重要研究领域。与其他的分类任务相比,文本分类本身一个最重要的特点是,文本分类通常用词作为分类的特征。词的数目非常大,几千,几万,甚至几十万。分类特征非常多,普通的分类器难以很好的完成分类任务。如何有效的减少分类的特征,而同时要保证分类的性能就成为重要的研究内容。特征降维的方法通常分为特征选取和特征抽取两类。在本文中重点研究了采用因子分析技术进行特征抽取的方法。 潜在语义索引是一种最常用的特征抽取技术,通过对项-文本矩阵的分解,利用词之间的共现信息来抽取特征,文本表示从原来高维词空间的文本向量线性映射到潜在语义空间的低维向量。潜在语义索引是一种非常好的特征降维的方法,它可以利用很少的维数保存文本绝大部分的分类信息,而且能够去除数据集中的噪声来提高分类的效果。文中对潜在语义索引对于特征降维的能力进行了研究,与常用特征选取方法如信息增益,文档频度,互信息等进行了比较分析。实验结果表明,潜在语义索引是一种很好的降维技术,可以用很少的特征而得到非常好的分类效果。 因为潜在语义索引采用奇异值分解实现,所有的运算都是线性转换,所以得到的新特征是由原始特征(词)信息的线性组合得到的。而有些对分类有用的信息是非线性的,潜在语义索引方法无法对这些信息很好的进行表示。 核主成分分析与潜在语义索引很相似,也是一种因子分析技术。核主成分分析通过引入核方法,把文本从词空间映射到非常高维的特征空间后,再进行主成分分析,抽取非线性特征。核主成分分析能成功的避开潜在语义索引的线性限制,从而能够抽取到更适合分类的特征。核主成分分析与kNN分类器组合模型取得很好的分类性能。本文选用多项式核函数,并对多项式核函数的参数对分类性能影响进行初步探讨。在中文和英文数据集上的实验结果表明,核主成分分析用来作特征抽取能够达到或者超过潜在语义索引方法的分类效果。
其他文献
国内外学者都对基于一维高分辨距离像的目标识别进行了广泛研究,但进行目标识别必须对获得的目标数据特性有深入研究,这已成为有效利用目标数据特性实现高性能目标识别的关键
近些年来,疲劳驾驶在道路交通伤害中所占的比重越来越大,也越来越得到人们的重视。但是目前疲劳驾驶检测系统在我国并未得到普及,所以致力于研究一种有效性高、实时性好、自适应
随着Internet/Intranet的快速发展和普及,丰富的Web资源构成了一个巨大的全球信息仓库。一方面,Web信息数量庞大,门类齐全,几乎任何信息都可以在Web上找到;另一方面,相对于海量的We
科学工作流是对大规模科学实验进行自动化完成的过程。作为一种数据密集型应用,科学工作流已被广泛用于处理和分析科学研究中的大规模实验数据。由于云环境可提供科学工作流执
国内外在立体显示、视频监视及跟踪等方面均开展了一定的研究,本文讨论了基于Internet的实时立体视频监视以及基于运动检测和人脸检测的智能跟踪技术,并开发了相关的系统。
在普通文档图像中存在着各式各样的表格,对文档图像中的表格进行自动定位、分析和内容识别是DIA领域的研究重点之一。本文在大量实践工作的基础上,对表格图像的版面结构分析
声音感知技术作为人机接口的一个重要分支,对提高计算机的自动化和智能化程度具有重要的意义。它通过声音感知器对外界环境声音信号进行分析处理,自动确认外界环境中是否存在
随着数据库技术的应用越来越广泛,使用数据库用户数量的增多以及数据内容敏感程度的加强,数据库的安全也变得更加重要。为了保证数据库中的数据不受到非授权用户的查看和修改
本文在现有结构连接算法的基础上,以Dewey向量为基础,提出了基于Dewey向量的B+树(DeweyVectorBasedB+Tree,简称为DVBB)双栈结构连接算法。该算法利用了两个栈,在这两个栈的基础上
本文以并行计算模型为核心展开研究。一个准确的、完善的并行计算模型能够在很大程度上指导与简化软件和硬件的设计工作。论文通过有选择地考察目前常用的五种并行计算模型,就