论文部分内容阅读
文本分类问题是指自动地将文本按照预定义的类别体系划分到正确的类别中,它是智能信息处理领域中一个重要的研究方向。随着信息技术的发展,特别是20世纪90年代基于机器学习的文本分类方法的逐渐成熟,文本自动分类技术在自然语言处理、信息组织、内容过滤等领域中开始被广泛地应用。目前,互联网上可获得的信息越来越多,如何帮助人们快速、准确且全面地获取他们所需要的信息显得非常重要,文本分类技术是解决这一问题的有效手段之一。 文本分类问题经过大约二十年的研究,其基础技术已经比较成熟,包括样本表示、分类器、性能评估指标等。然而,现实应用中的大规模文本分类问题与普通的分类问题相比,自身还具有一些明显的特点,例如:训练样本数量大,预定义类别多,单个样本拥有不止一个类别标号。此外,人们阅读文本是为了获取信息,然而大规模文本集合中各个文本的质量往往参差不齐,倘若自动地对文本的质量加以分类,就能够帮助人们更高效地获取信息。 本论文围绕着基于机器学习的大规模文本分类这个课题,分别从海量样本分类、海量类别分类、多标号分类、以及文本质量分类这四个方面开展了研究工作。本论文的主要工作和创新点体现在如下四个方面: 1.本论文提出最小最大模块化极限学习机算法来提升原极限学习机模型处理海量样本分类问题的能力。极限学习机是一种新型的神经网络分类器,具有训练速度快、人工干预少、泛化性能高等特点,但由于计算复杂度较高和内存需求较大,不适用于海量样本分类问题。本论文提出的新算法充分利用了最小最大模块化网络框架的特性,集成了相关研究中对它的多种改进,并且采用交叉验证和格点搜索来自动地完成参数和组件配置的优化。实验结果表明新算法使得极限学习机模型处理海量样本分类问题的能力得到较大提升,训练时间和内存开销都有了明显的降低,同时分类准确率得到一定程度的提高。 2.本论文提出基于元学习的层次化分类算法来提高海量类别问题的分类准确率。传统的层次化分类算法虽然能够比较快速地处理海量类别分类问题,但由于在它的分类过程中存在着“误差扩散”现象,分类准确率偏低。本论文提出的新算法利用元学习技术来缓解这种“误差扩散”现象,同时保留传统层次化分类算法处理海量类别分类问题的高效性。实验结果表明新算法不仅能够显著地提高分类准确率,而且将计算复杂度维持在与传统算法相同的数量级上。 3 本论文提出变阈值标号选择策略来更好地解决多标号分类问题。标号选择策略是指在多标号分类问题中,如何利用基分类器输出的信心指数来准确地决定最终的预测类标。本论文提出的新策略融合了目前两种主要的标号选择策略“阈值策略”和“排序策略”。实验结果表明该策略在多标号分类问题中不仅能够取得较高的分类准确率,而且在不同的分类数据集和分类器模型上都具有良好的鲁棒性。 4.本论文研究了文本质量的自动分类方法,即任给一篇文本,系统将自动地判断出它的质量高低。该课题的实际意义在于它能从大规模文本数据集中识别出高质量文本,从而有效地帮助用户获取信息。本论文采用监督学习的框架,总结并扩展了一系列与文本质量相关的特征,以便更好地对文本质量进行自动分类。本论文从互联网上收集维基百科文本作为数据集,进行了实际测试,实验结果证实了本论文方法的有效性。