论文部分内容阅读
计算机及互联网的普及在带给人们的生活和工作丰富资源的同时也使信息呈现爆炸式增长。随着网络中文本数据呈指数级增长,信息的人工分类和管理也已经被计算机自动分类所替代。经过多年的研究和发展,文本自动分类领域已经开发出一些相对成熟的算法。对于中文文本分类,也已经有一些方法和系统可以达到较高的分类准确率。研究分析发现,在文本预处理阶段,对于歧义语段的划分始终是影响分类准确率的一个重要因素,至今仍未完全解决。本文结合互信息度理论,提出一种基于背景学习的迭代式框架,以此为基础通过对分词数据预处理来改进传统的基于朴素贝叶斯模型的文本分类算法。本文使用新浪网不同类别数据对提出的迭代式框架进行实验评估。实验结果表明本文提出的基于背景学习的迭代式文本分类框架可行有效。