论文部分内容阅读
文本分类(Text Categorization)是自动将一组文本分类到预先定义的类别中的任务。自动文本分类可以帮助人们从繁重的大量文本手工组织中解放出来,而且结合了信息检索与机器学习技术,准确率已经达到人们手工分类类似的水平。
自动文本分类目前有许多分类方法,本文中将其分为三类:基于内容的文本分类方法、基于向量空间的文本分类方法以及基于概率的文本分类方法。各种分类方法有不同的优缺点,本文选择了用户最易理解、模型简单的分类方法进行中文文本分类的详细研究,包括规则分类模型与朴素贝叶斯模型。
由于通用的规则学习算法考虑的都是规则所覆盖的正例数,而没有考虑规则的条件之间是否需要一定的关系,因此本文中提出了一种基于词语关系的规则学习算法并且通过实验得出相应规则,但是由于规则分类方法的局限性,即样本空间随着规则的生成会越来越小,从而不利于规则的生成,因此影响了规则分类效果。
虽然朴素贝叶斯分类模型是一种简单而有效的分类方法,但它的属性独立性假设使其无法表达属性变量间存在的依赖关系,影响了它的分类性能。本文通过分析贝叶斯分类模型的分类原则以及贝叶斯定理的变异形式,提出了一种规则与贝叶斯相结合的分类模型RLCNB(Rule Combined with Naive Bayes)。该模型通过规则选择出有依赖关系的属性,假设在包含这些相关属性的样本中剩下的属性之间互相条件独立,从而放宽了强独立性假设条件。将该分类方法与朴素贝叶斯分类器、规则分类器进行实验比较,实验结果表明,在属性相关性影响了分类效果的多数数据集上,RLCNB分类方法具有较高的分类正确率。
文本分类有许多实际应用,包括自动文档索引,垃圾邮件过滤,自动作者识别等,同时还可以应用于自然语言处理的一个重要研究问题:词义消歧中,本文研究如何将分类模型RLCNB应用于词义消歧中,同时分析了此模型应用于词义消歧与应用于文本分类时的不同点。