论文部分内容阅读
基于网格的信息分发系统中,需要处理海量信息,不仅信息量大属性缺失的数据也常见。若不能进行正确处理,就会产生信息淹没与数据垃圾,无法获取信息优势。本文研究的基于粗糙集的分类模型正是针对这个问题而提出。分类模型是信息分发系统中的一个重要组成部分,其主要目标是保证将有效信息分类并分发给真正需要它的用户。
分类模型的关键部分是用户需求发现,它通过对用户历史访问信息的行为进行学习,找出不同用户对不同类型信息的潜在兴趣。实质上,用户需求发现可归属于分类知识发现的范畴。分类知识发现将通过对反映用户历史访问行为的用户信息需求进行分类预测分析,把用户信息需求分为有无需求两大类。分类知识发现模型可由不同的分类知识发现技术来构建。但是,有的分类知识发现技术建立的模型要么比较复杂,要么需要一定的先验知识——这种方式具有主观性。粗糙集作为一种有效的数据分析工具,与其它知识挖掘技术相比,在解决分类问题上有独到的优势,在较少的数据中也可挖掘出较好的规则或知识,生成的规则易于理解,而且该方法简单、易于操作。
鉴于上述分析,本文对基于粗糙集的分类知识发现进行了研究。重点研究了基于粗糙集的分类知识发现模型中的重要部分——属性约简、分类规则约简、分类预测以及在属性缺失条件下的分类算法。属性约简方面,结合属性约简的基本概念,提出了求绝对核的算法,改进了属性约简算法,此算法提高了计算效率。在规则约简方面,重新定义了核值,使之适用于不一致决策表,以此为基础,提出了既适合一致决策表又适合不一致决策表的分类规则约简算法。在分类预测方面,将基于相似度的分类预测方法应用于无规则匹配的情况。在属性缺失的条件下,对每个条件属性的重要度进行了定义,给出了不影响整个系统时间复杂度的缺值分类算法。
本文还对上述所提算法在信息分发系统中的应用进行了研究。一方面,在信息分发系统总体结构的基础上,对信息分类功能进行了分析和设计。另一方面,研究了基于粗糙集的分类模型在信息分发中的应用,实现了用户需求发现。