一种基于CR树的数据挖掘可视化框架

来源 :南京大学 | 被引量 : 0次 | 上传用户:anjialaogong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘技术的逐渐发展,数据挖掘模型越来越复杂,使得数据挖掘可视化的需求越来越强烈。数据挖掘可视化有三个方面动机:1.帮助初学者和用户理解数据挖掘模型的工作原理;2.解释数据挖掘的过程、中间结果等细节;3.辅助数据挖掘技术的研究。虽然有许多文献提出朴素贝叶斯、决策树、神经网络的可视化方案,但是这些方案都局限于UI的设计,并未提出通用的数据挖掘可视化解决方案。本文针对决策树和神经网络是图结构的特点,研究将模型可视化所涉及的数据表示方法、储存结构和UI。同时兼顾考虑用户搭建可视化系统的易用性,最终形成一种基于CR树的数据挖掘可视化框架CR-DMVF。CR-DMVF框架主要解决两个问题。第一是数据挖掘数据如何表示和存储。针对这一问题本文将决策树和神经网络训练中间数据统一使用(时间,节点,边,属性)四元组表示,并提出CR树作为数据的索引结构。第二是数据挖掘模型的UI表示。针对这一问题框架定义了导航视图、模型视图、数据视图、时间轴及其操作。本文的主要工作包括以下三个方面:1.提出一种基于CR树的数据挖掘可视化框架CR-DMVF。CR-DMVF框架将数据挖掘可视化系统分成UI、可视化、数据管理和数据挖掘模型四层。UI层包括数据视图、导航视图、模型视图和时间轴。可视化层主要包括导航视图的初始化。数据管理由原始数据索引、节点索引、中间数据索引和数据过滤器组成。数据挖掘模型层从数据挖掘模型获取模型训练过程的中间数据。本文通过搭建决策树可视化系统展示CR-DMVF的使用方法。2.通过分析决策树和神经网络算法,提出这两类算法的中间数据最多需要时刻、节点、边和属性四个属性表示。从而将决策树和神经网络的中间数据使用统一的四元组表示,为这两类数据挖掘模型可视化提供便利。3.改进R树插入算法,提出CR树多维数据索引结构。针对R树建树会产生细长矩形,降低搜索效率的问题,提出应当抑制细长矩形的产生。当数据点插入已满的CR节点时,会使节点分裂。首先计算待分裂节点矩形和坐标空间矩形的各边比例,选择比值最大的边作为分裂边;然后通过分裂边确定两个标准点,根据待分裂节点子节点质心与两个标准点距离,将子节点分为两组完成分裂。最后通过实验证明CR树的有效性。
其他文献
液滴分析技术是指在液滴的生长过程中,利用光纤电容液滴传感器获取通过液体的光强和液滴体积的变化曲线,进而获得可以反映被测液体综合特性的“液滴指纹图”。通过对液滴指纹
基于Wiki的开放式协作内容生产方式和开放式协作社区在新一代网络中日益盛行,开放式协作内容不仅在社会化媒体受到欢迎,更引起学术研究领域的极大关注。Wikipedia是最著名的W
随着云计算技术的快速发展和云服务的广泛应用,企业和个人可以通过低廉的成本按需获取云服务厂商提供的高质量云服务,而无需购买和部署高昂的硬件设备。然而各大云服务提供商
超级电容器是一种建立在界面双电层基础上的新型电化学储能电子元件,相比于传统的电容器与蓄电池,它表现出了更高的功率密度、更长的循环寿命,而且具有容量大、环境污染小、成本低等优点。2004年,石墨烯首次被发现,因其具有比表面积高以及导电性能优异等特点,被广泛应用于各种纳米材料的载体,也是理想的储能器件候选电极材料。因此本论文以石墨烯作为载体,通过对其表面功能化,负载过渡金属化合物在其表面,并与优选的基
知识社区是互联网时代人们进行资源获取和学习的重要场所。它以其开放性、快捷性吸引着越来越多人们的关注,对于很多科研学者,知识社区甚至成为他们与外界交流与沟通的主要方
血细胞形态学分析对贫血、白血病和艾滋病等血液疾病的早期诊断具有十分重要的意义。传统形态学检查都是由经过专门培训的检验科人员在显微镜下对外周或骨髓血涂片中的细胞完
随着云计算技术与大数据的兴起与发展,对数据中心操作系统的可靠性、可扩展性以及执行效率性能提出了非常严峻的考验。传统数据中心大都采用虚拟机进行资源管理,虚拟化技术将
随着机器人技术的发展,机器人应用领域更加广阔。但从当前的机器人技术来看,单机器人在采集处理信息数据和控制能力等方面都是有限的,当工作任务复杂和工作环境多变时,单机器
在当前竞争日益激烈的互联网时代下,数据的及时获取成为企业成功的关键所在。商业智能以挖掘数据中的信息为目的,以数据搜集、管理和分析为手段,使用户从数据中获得对于商业
随着科技的发展和社会的进步,现实世界中的各种系统越来越复杂,传统的数学方法已经满足不了我们现实世界复杂系统中对多目标优化问题的求解要求。进化算法作为一种模拟自然界