论文部分内容阅读
互联网快速发展带来了电子信息的爆炸性增长,也促进了与电子信息组织和管理相关的技术发展。平面型文本分类以及层次型文本分类都是有效管理海量信息的重要手段。相对于平面型文本分类,层次型文本分类能够充分利用类别之间的层次结构关系,进一步提高文本分类的性能和速度,同时分类结果的层次结构也便于用户更好地检索。然而,层次型文本分类在分类过程存在“阻塞”问题:当一个文本在被划分到叶类别之前发生错分时,它将永远不可能划分到正确的叶类别。层次型文本分类中的阻塞现象会严重影响分类系统的性能,因此它也越来越受到研究者们的关注。本文是在前人的基础上,对控制层次型文本分类阻塞现象的各种策略进行总结,并进一步提出一种基于可信节点裁剪的阻塞控制策略。本文在第二章对平面型文本分类和层次型文本分类的基础知识进行了系统介绍,并进一步分析了层次型文本分类之于平面型文本分类的优点:特征词具有更高的类别区分度,文本的表示效力更高,分类器过拟合学习的可能性降低,同时分类速度更快。在第三章,本文系统总结了控制阻塞的三种策略:阈值降低法、投票法、最优路径法(累乘法),并比较了三种方法各自的优缺点。在此基础上,本文改进了最优路径法,提出了可信节点裁剪法。可信裁剪法主要通过三个步骤达到控制层次型文本分类阻塞的目的,首先通过过滤发生阻塞的分类路径获得候选分类路径,其次是通过改进的分类路径权重计算方法,从候选分类路径中选择最优分类路径,最后在最优分类路径上的可信节点进行裁剪。实验表明可信节点裁剪法能够很好地控制阻塞问题,提高层次型文本分类系统的性能。最后,本文采用Reuters21578语料训练层次型文本分类系统。在相同的类别层次结构上,本文分别采用最优路径法,可信节点裁剪法两种阻塞控制策略做比较实验,并最终将结果同标准层次型文本分类的结果进行比较。实验表明,可信节点裁剪法在保证系统精确度的同时较好地控制了阻塞现象,性能优于最优路径法。