论文部分内容阅读
时态数据挖掘是数据挖掘中一个重要的研究课题,有其自身的特点,它需要在数据挖掘过程中考虑数据集中各数据之间存在的时间关系。决策树和粗糙集是数据分类的两个最重要的方法,决策树在知识表示上有层次、自然和推理易理解的特点,而粗糙集理论在处理数据模糊和不确定性方面有着优势,对于增量时态数据,我们将借鉴决策树算法思想对转换后的时态序列数据处理,在构造决策树过程中,利用粗糙集理论来优化决策树的构造和规则的提取,从而提出一种新的增量式分类挖掘算法。本文首先给出了与时态数据有关的数学概念以及相关性质,介绍了时态数据转化方法并给出了其改进的算法。然后介绍决策树分类算法和粗糙集基础理论,接着分析了决策树分类算法固有的缺点以及应用于时态数据分类挖掘中的缺点,提出了基于粗糙集与决策树理论的时态增量算法,最后给出算法的应用实例,对股票的数据进行分析,给出实验结果。本文的主要贡献是提出了改进的时序转化方法,在构建决策树的过程中,优化了信息熵的计算,提出了时间特性属性组合的思路和用粗集理论的相关概念对生成的决策树进行剪枝处理思路,在增量数据处理问题上,针对本文的时态数据处理方法,提出对应的增量数据处理方法。本文所做的贡献对于时态数据分类挖掘具有一定的意义。