论文部分内容阅读
随着数据挖掘技术的逐渐发展,数据挖掘模型越来越复杂,使得数据挖掘可视化的需求越来越强烈。数据挖掘可视化有三个方面动机:1.帮助初学者和用户理解数据挖掘模型的工作原理;2.解释数据挖掘的过程、中间结果等细节;3.辅助数据挖掘技术的研究。虽然有许多文献提出朴素贝叶斯、决策树、神经网络的可视化方案,但是这些方案都局限于UI的设计,并未提出通用的数据挖掘可视化解决方案。本文针对决策树和神经网络是图结构的特点,研究将模型可视化所涉及的数据表示方法、储存结构和UI。同时兼顾考虑用户搭建可视化系统的易用性,最终形成一种基于CR树的数据挖掘可视化框架CR-DMVF。CR-DMVF框架主要解决两个问题。第一是数据挖掘数据如何表示和存储。针对这一问题本文将决策树和神经网络训练中间数据统一使用(时间,节点,边,属性)四元组表示,并提出CR树作为数据的索引结构。第二是数据挖掘模型的UI表示。针对这一问题框架定义了导航视图、模型视图、数据视图、时间轴及其操作。本文的主要工作包括以下三个方面:1.提出一种基于CR树的数据挖掘可视化框架CR-DMVF。CR-DMVF框架将数据挖掘可视化系统分成UI、可视化、数据管理和数据挖掘模型四层。UI层包括数据视图、导航视图、模型视图和时间轴。可视化层主要包括导航视图的初始化。数据管理由原始数据索引、节点索引、中间数据索引和数据过滤器组成。数据挖掘模型层从数据挖掘模型获取模型训练过程的中间数据。本文通过搭建决策树可视化系统展示CR-DMVF的使用方法。2.通过分析决策树和神经网络算法,提出这两类算法的中间数据最多需要时刻、节点、边和属性四个属性表示。从而将决策树和神经网络的中间数据使用统一的四元组表示,为这两类数据挖掘模型可视化提供便利。3.改进R树插入算法,提出CR树多维数据索引结构。针对R树建树会产生细长矩形,降低搜索效率的问题,提出应当抑制细长矩形的产生。当数据点插入已满的CR节点时,会使节点分裂。首先计算待分裂节点矩形和坐标空间矩形的各边比例,选择比值最大的边作为分裂边;然后通过分裂边确定两个标准点,根据待分裂节点子节点质心与两个标准点距离,将子节点分为两组完成分裂。最后通过实验证明CR树的有效性。