论文部分内容阅读
在互联网高度发达的今天,信息技术渗透到了日常生活中的点点滴滴,互联网上几乎拥有人们所需要的全部信息。对于如何在海量的互联网信息中找到不同个体、单位所需要的知识提出了挑战。面对这个挑战,数据挖掘得以提出。文本分类是数据挖掘领域的一个重要分支。如何对互联网上的海量文本信息进行分类,已经成为信息科学领域所面临的一个重大挑战。论文采用朴素贝叶斯文本分类算法,研究并实现了云计算环境下的网页自动分类系统,包括网页预处理、训练过程以及分类过程的MapReduce方法。探讨了利用TF-IDF-DI公式计算特征项权重的方法,以增加本文所关注的低频却具有较高分类能力特征项的权重,在TF-IDF-DI公式计算权重的基础上,利用基于特征的增量学习算法,降低计算冗余度的同时,提高了分类器的分类能力与智能性。实验表明以MapReduce方式来执行网页分类任务提高了计算效率,能满足快速响应的需求,采用朴素贝叶斯分类算法对中文文本进行分类取得了良好效果。利用TF-IDF-DI公式替代传统的TF-IDF公式对特征项权重进行计算,以及基于特征的增量学习算法使分类器的识别率获得了提高,并使得分类器更加智能。