论文部分内容阅读
本文选择了信息检索领域的关键问题文本分类作为研究对象。将文本分类操作的分类算法和怎样将Rough Set理论应用于分类操作作为研究重点。 由于Rough Set理论是一种较新的软计算方法,可以有效地分析和处理不完备信息。在许多科学与工程领域得到成功的应用,但是在信息检索领域的应用研究相对较少。所以本文将怎样把Rough Set理论应用于文本分类模型这个典型问题作为研究的重点。研究分析了Rough Set理论应用于文本操作的现状、论述了Rough Set理论应用的优势以及局限性和文本操作所面临的困难。本文的一个基本观点是“不完备和不一致的文本信息系统的“规则”是不可靠的”。所以应用Rough Set理论的重点不从“属性约简”、“规则提取”的角度的进行。 本文提出一种新的训练模型,即将训练预分类标准和关键字出现视为不可分关系,形成确定的知识,同时又将其视为不确定的知识。并以此作为粗糙操作的基础。给出了基于Rough Set理论的文本训练类别和特征关键字在给定文本集合中的关联关系的研究结果。即从集合的角度总结出由特征引起的集合与由训练类别引起的集合之间存在的几种典型关系,以及在粗糙集模型下的相应结论。解决了关键字描述能力和分类能力的表达问题,内容还涉及退化、约简等内容。最后,提出一种基于Rough Set理论的单分类器模型算法。它从Rough Set理论的知识近似表示、表示精度及集合计算操作的角度进行应用。该方法提出“将文本训练过程视为经典粗糙集,将测试过程视为模糊集”的思想,通过特征与类别之间在Rough Set模型下的关联关系设计出单分类器的算法,并将粗糙精度的概念引入具体计算过程。算法解决了结果精确隶属的问题,可以被用于多重分类问题。然后针对应用过程中产生的退化问题设计出双向近似的单文本分类器的算法。该算法同时实现了属性的自然约简。通过实验证明以上算法是算法简单、有效。 另外,本文还将容差Rough Set理论应用于文本分类,提出一种基于容差Rough Set理论的多文本分类器模型算法。它从Rough Set理论的关系定义及上近似和下近似含义扩展的角度进行应用。该模型将上近似理解为概念在语义上的扩展,而将下近似理解为概念的核。并且将该思想应用于文本简单分类法。