分类算法分析及基于MinerOn Web的设计和实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:ddy110110520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,随着计算机硬件和软件的迅速发展,尤其是Internet技术的快速进步,人们收集到的数据以令人吃惊的速度日益增加,数据挖掘已经成为研究的热点;尤其是对于其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。本文的工作重点是关于分类算法的一些工作,主要分为三个部分:提出分类模型应用方法,实现模型应用的可视化,改进ID3算法。(1)分类模型应用方法:分类分析的目标是通过对数据的归纳和总结来实现对新未知数据的预测。但是,在预测新数据的过程中,人们可能会遇到规则难以理解,或者规则繁杂不好应用等一些困难。针对这种情况,本文提出了分类模型应用方法体系,并在MinerOnWeb系统中设计和实现了这一模块工作。在MinerOnWeb系统中,用户即使对规则不理解也可以利用模型应用模块对新数据预测。模型应用方法体系包含四个过程:从分类结果中提取模型,存储模型,模型比较功能,模型应用。(2)模型应用的可视化:为了使用户容易理解模型结构和直观地观察模型应用结果,本文在模型应用阶段引入了可视化技术,并在MinerOnWeb系统中设计和实现了模型可视化以及模型结果可视化。(3)ID3算法的改进:ID3算法是决策树算法中影响最大的算法之一。它以信息增益为标准选择决策树的测试属性。这种算法在选择合适的测试属性时,倾向于选择取值较多的属性,而在实际应用中,取值较多的属性未必是重要的。针对此算法的不足,本文提出了一种对增益修正的ID3算法,为改善ID3的多值偏向问题提供了一种有效途径,并在MinerOnWeb系统中得以实现。通过理论分析和实验证明,这种算法能较好地解决多值倾向的问题。
其他文献
集成Deep Web中的数据信息是一项非常重要的工作,在这项工作中常会遇到信息冗余和记录去重问题,它们常成为集成工作成败的关键。估计web数据库重叠率,可以优化信息冗余和记录
当前,计算机病毒已经成为互联网的重要威胁,它能删除、窃取和修改计算机中的重要数据信息,甚至造成计算机系统的瘫痪,这种强烈的破坏性引起各领域的高度关注。近年来,一种新
电子邮件成为网络病毒传播的重要途径,隐藏在电子邮件中的计算机病毒常常随着邮件一起传输,在一定条件下激活,进行破坏和传播,轻则占用资源、破坏计算机系统部分功能,重则导
本文主要对无线传感器网络分簇算法,数据融合和恢复算法进行了研究。首先对无线传感器的网络概念内容进行介绍,讲解了重要的设计目标、挑战和特点,介绍应用领域和研究的热点
移动自组网(mobile ad-hoc networks,MANETs)是由移动节点组成的一个多跳临时性自治系统,它不依赖于预设的基础设施并能够快速组网。由于移动自组网本身的特殊性,如何设计一
步态识别是计算机视觉研究领域的重要课题之一,因其具有远距离身份识别的特点,成为近年来计算机视觉领域中备受关注的前沿方向。本文主要对人体运动的跟踪、运动人体轮廓提取
经典智能规划要求智能体对规划世界的知识是完全的,规划过程中动作的效果是确定的,但现实世界中得到的信息往往是不完全、不确定的。为了满足智能规划技术应用于实践中的目的
随着无线通信技术的发展,移动计算的应用越来越广泛。人们可以通过无线网络随时随地访问信息。然而,不同于传统的分布式计算环境,移动计算环境有其鲜明的特点:移动性、断接性
随着网络安全的不断深入,传统的网络安全技术暴露出很多问题,入侵检测技术作为一种积极主动的安全防御技术,越来越受到大家的重视。但是,入侵检测技术在发展中也存在很多问题
随着我国工业的不断发展,工厂废气产生的大气污染日益严重。污染扩散可视化将有助于大气污染的科学管理,为环保部门提供直观、科学的分析手段。然而,建立污染扩散可视化场景