论文部分内容阅读
随着互联网技术的飞速发展,电子文本信息迅速膨胀,呈现出海量性和杂乱性的特点,对这些海量文本信息的有效组织和管理已成为当前信息技术领域面临的一大挑战。基于人工智能的文本自动分类技术根据文本的内容自动将未知文本自动分类,通过将文本分门别类来对海量文本进行管理,方便用户准确定位所需信息。文本自动分类技术作为信息检索、信息过滤、文本数据库、数字化图书馆等相关领域的技术基础,可以有效的提高这些信息服务的质量。因此,文本自动分类有着广泛的应用价值和研究意义。本文研究探讨了文本自动分类的关键技术,如分词技术、特征降维、分类技术等,着重分析研究了特征降维中的特征选择技术。作为特征降维中最常用的方法,特征选择的目的在于从原始文本特征空间中选择出对文本分类最具有类别区分意义的词构成文本分类的特征空间,从而有效降低文本向量维数,去除冗余特征,提高分类器的分类效率和分类准确度。传统的特征选择方法选出的特征词都是具有多个类别指示意义上的词,并没有按照类别来选择特征词,同时忽略了词频在特征选择中的作用。如果一些特征词条集中存在某几个类别中,而且在这些类中均匀分布,那么这些词条有较强的类别区分度,应当被保留。基于这种思想,本文在引入词条类别区分度的概念的基础上,将特征词条的类别区分度作为特征选择的一个依据,提出了对传统的特征选择算法的改进方法和一种新的基于类别区分度的特征选择算法。为了验证本文所提出的特征选择算法,设计并开发了一个中文文本自动分类系统,然后在该系统上进行分类实验对比。实验结果表明,本文所提出的特征选择算法的分类准确度均高于传统的特征选择算法,从而验证了本文方法的有效性和可行性。