一种基于MACA的数据挖掘分类方法研究与应用

来源 :江苏大学 | 被引量 : 0次 | 上传用户:zhubaoqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类挖掘是数据挖掘技术中一个非常重要的方法。常用的典型分类挖掘方法有决策树、神经网络、遗传算法、贝叶斯方法和k-最临近分类法等,这些方法对各自适用的数据集都表现出较好的分类性能,但也表现出许多共有的不足。首先都属于内存驻留算法,须以数据量小为前提,对于海量数据,其有效构造分类模型的能力必显不足;其次,对在Internet上建立数据挖掘服务器所需的并行和分布式数据处理能力缺乏考虑;此外,分类精度和内存利用率等也有待提高。论文针对分类挖掘技术的研究现状,设计了一种基于多吸引子元胞自动机、可有效地应用于数据挖掘系统中的两阶段分类器。该分类器在数据量处理能力、分布式数据处理、分类精度和内存利用等方面都有所改善。论文的具体研究内容和研究成果包括:(1)对基于多吸引子元胞自动机的分类器进行了重新描述,缩小了分类算法的查找空间。具体方法是以两个线性算子依赖向量DV和依赖字符串DS代替依赖矩阵来描述分类器;(2)设计了基于新描述方法的两阶段分类器,并利用遗传算法对分类器进行了优化处理,有效提高了分类器的分类速度。(3)设计了基于两阶段分类器的数据挖掘分类算法,并在通用的实验平台WEKA上进行了分类性能测试。测试结果表明,相比较原基于多吸引子元胞自动机的分类器和C4.5、贝叶斯分类法等其他常用分类挖掘方法,所提出的两阶段分类器综合分类性能有明显提高。(4)将所提出的两阶段分类器具体应用到公安情报挖掘系统中,提出了Web公安情报挖掘系统中的分类模型,设计了在分布式数据挖掘环境中的相应分类算法。
其他文献
网格是继万维网之后出现的一种新型网络计算平台,目的是为用户提供一种全面共享各种资源的基础设施。但因其大规模、分布、异构和动态等特性使得网格计算环境非常复杂,提出了
随着计算机图形学的发展,对植物建立模型并动态地模拟植物生长、死亡等生命活动已经成为虚拟现实领域的研究热点。由于植物的生长发育是一个非常复杂的过程,不仅受到物种自身
CSP(Communicating Sequential Processes)是Hoare提出的一种代数语言,主要用于对并发系统进行描述与验证。主流的CSP模型检测工具包括FDR、PAT等。FDR通过操作语义将进程转化
随着多媒体技术和数字通信技术的飞速发展,人们所处理的信息量越来越大,相互通讯越来越容易,为了保护数据信息不被恶意窃取,对大量数据进行加密是非常必要的。虽然不同的应用
本论文是《内河航道多视觉信息融合技术应用研究》的核心研究内容。通过计算机视觉技术的研究,自动识别行进中的船舶的标志牌号(船铭牌),从而获知该船舶的基本信息。目前,我
近年来,随着银行、机场等安全敏感场合对大范围视觉监控系统的迫切需求,远距离生物特征识别技术的研究受到越来越广泛的重视。而步态识别是一种远距离情况下唯一可被感知的生
管理信息系统(MIS)是指在管理工作中以数据库为核心的计算机应用,是信息技术革命的重要内容。管理信息系统集成了计算机网络技术、通信技术、信息处理技术,对信息进行收集、传
无线传感器网络(WSN)可靠性分析是WSN设计、部署、验证和维护的一个重要环节。在传感器网络的应用中,为了让数据在环境嘈杂,故障以及时间变化的无线通道中进行可靠传输,传感器网
随着信息技术和计算机网络的飞速发展,人们不但可以通过互联网和CD-ROM方便快捷地获得多媒体信息,还可以得到与原始数据完全相同的复制品,因此,作为数字媒体版权保护的重要手
随着空间数据库、地理信息系统、基于用户位置服务和移动应用的普及和广泛应用,空间数据库管理系统的安全问题得到越来越多的关注。虽然很多安全技术,如加密、访问控制、入侵