论文部分内容阅读
文本分类作为一项重要的数据挖掘技术,在国内广泛地应用于词义辨析、文本组织与管理、信息过滤、Web网页文档分类、数字图书馆、信息检索等众多领域,因此提高文本分类的精确度和效率有重要的研究意义。文本分类主要有文本预处理、文本分类处理、分类结果评价三个步骤,其中特征降维技术直接影响分类效果,传统的特征降维方法采用对训练语料库的分词集合统计的方法,通过计算某种评价函数选择超过预先设定的阂值的词语作为特征项。这种降维方法过于依赖训练文本集,效果受训练文本的局限,会导致过拟合。 针对过拟合现象,本文从词语间的语义关系出发,提出一种基于词语聚合的文本特征降维技术。该方法通过研究词语之间的语义关系求出分类类别词的词语聚合集作为降维的特征集。词语之间的语义关系由语义距离决定,而语义距离和词语的相似度成反比关系。在对词语相似度的研究中,本文提出基于逆概念频率ICF(inverse concept frequency)的词语相似度计算方法,计算第一基本义原结构、其他基本义原结构、关系符号结构、关系义原结构中各义原结构的ICF权重,计算概念基本特征的权重,得出概念相似度与概念权重的乘积作为词语相似度计算结果。在词语相似度研究的基础上提出词语聚合技术。基于词语聚合的特征降维技术首先用词语间的语义距离计算分类类别词语的词语聚合,计算词语聚合时利用模拟退火算法求不同分类词词语聚合的聚合半径。最后将所有分类词的词语聚合的并集作为特征集,从而达到降维的要求。 本文将基于词语聚合的特征降维技术应用在KNN分类器对待分类文本进行分类,在特征维度降为3000维时,该算法的平均查准率达到72.6%,平均查全率达到62.99%,并且通过实验对比,相比较于卡方检验和信息增益这两种特征降维技术,基于词语聚合的特征降维技术在一定程度上避免了过拟合现象。