论文部分内容阅读
互联网技术和信息技术的迅速发展不但使得网络上的电子文本数量急剧增加而且改变了人们获取信息的方式。如何对这样数量庞大的电子文本进行有效的组织管理以方便人们快速、准确而全面地获取潜在的、有价值的知识和信息是信息处理技术的一项重要课题。文本分类技术作为解决这一问题的关键技术之一,已经成为信息技术领域的主要研究方法。同时,作为信息检索、信息推送和信息过滤等领域的基础技术,文本分类有着重要的学术价值和广泛的应用前景。对高维特征集合进行降维,是文本分类的关键技术之一。进行特征降维的目的是:通过有效的选择方法留下那些最具有类别区分能力的特征项,构成能够表现文本内容的最优特征子集。现有的基于词频统计思想的特征选择方法存在的问题包括:一是忽略了特征项本身的语义信息,即它和类别之间的语义联系;二是特征项之间存在语义冗余;三是语义冗余使得维数有限的特征空间无法容纳更多的对分类有用的特征项。在分析现有特征降维的思想和方法的基础上,本文重点探讨结合本体的特征降维方法。本体是对某个领域知识的系统描述,描述对象包括概念以及概念之间的关系。因此,把本体引入到文本分类的研究中,可以解决传统的文本表示模型和特征选择方法所存在的语义问题。在学习和研究中文本体HowNet的基础上,本文提出一种基于概念映射的二次特征降维方法。先利用传统的效果较好的特征选择方法选出一个候选特征集合,再利用HowNet对候选特征进行概念映射操作,最后进行第二次特征选择得到最终的特征子集。这样既保持了向量空间模型在文本形式化及数学计算方面的优势,又使选出的特征项尽可能携带语义信息并在一定程度上消除特征项之间的语义冗余,从而更符合特征选择的初衷----选出能表现文本内容的最优特征子集。因此,本文提出的特征选择方式并不是针对某一种具体的特征选择方法所做的改进,而是就特征选择这一问题本身进行的一些探索。最后,在中文文本分类实验平台上通过多组对比实验来考察本文提出的基于概念映射的二次特征降维方法的有效性。采用查全率、查准率和F1值等指标分析实验数据。结果表明本文提出的二次特征降维方法的效果优于传统的特征选择方法。