论文部分内容阅读
文本分类是信息检索与文本挖掘的重要基础。目前,虽然很多文本分类算法都成功地应用在各个领域,但单一文本分类算法容易导致构造的分类器分类性能差、泛化能力弱。集成学习算法利用多个单分类器之间的差异,有效地改善了分类器的性能和泛化能力。然而,随着网络数据规模的急剧增长,传统的集中式系统框架难以满足集成学习和海量文本数据分析处理要求的存储空间和计算能力。并行计算的出现使大规模文本数据集的集成分类学习成为可能。Google的MapReduce并行编程模型抽象度高,它封装了并行处理底层的细节问题,为程序员设计及编写并行程序提供了简易的编程框架。本文通过分析朴素贝叶斯的可加性,设计了基于MapReduce并行编程模型的TFIDF改进的贝叶斯文本分类算法,该算法利用五个MapReduce作业完成分类器的训练和测试部分。在Hadoop分布式平台上的实验表明该算法构造的分类器具有高数据容量、高效性和高性能的特点。进而通过对集成文本学习算法进行研究,结合Bagging算法的并行特点,提出了基于MapReduce的贝叶斯集成文本分类器。该分类器的训练首先用随机属性选择构建训练子集的方法破坏了朴素贝叶斯的稳定性,其次利用MapReduce框架下的贝叶斯文本分类算法作为基分类器对训练子集进行学习,并行地产生多个基分类器。分类器的测试包括利用各个基分类器并行产生中间结果和对中间结果进行不加权投票得出最终结果两个步骤。实验结果表明该算法适用于大规模文本数据集的分类学习,同时具有高效性、准确性、高可靠性和易扩展性的优点。