基于GEP和RS的大数据集分类模型研究

来源 :广西师范学院 | 被引量 : 0次 | 上传用户:liongliong566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类作为数据分析形式的一种,它可以从大量的数据中提取描述所有对象的模型。由于分类是利用已知的模型对新的数据进行预测,因此它是一个很好的有监督的学习过程。一个好的分类规则能够让我们更好的认识这个类,同时有效的利用类中的这些数据。分类是数据挖掘中最重要的任务,它通过分析已知数据提取分类模型,然后使用该分类模型将接下来要分类的数据一一映射到指定的分类规则当中。分类已经被广泛的应用到机器学习、神经网络、性能等方面的预测。实际上分类的训练集大多是连续的、有噪音的、不完整的,这往往会影响分类的精度。为了提高分类的精度,本文首先采用临界值等宽区间离散法将连续数据离散化,然后利用粗糙集这一能够对不完整、冗余、缺失的知识进行处理的理论方法所具有的知识分类的特点,结合基因表达式编程的进化策略,重点研究在数据预处理层去除冗余、不完整数据,提出了一种基于基因表达式编程的粗糙集属性约简研究算法(Attribute Reduction of Rough Set Based on GeneExpression Programming,简称ARRS_GEP),最后针对当前分类规则提取存在规则繁多的问题,提出一个新的分类模型。该模型包括对数据准备、数据预处理、规则提取、规则测试、规则评价等过程。本文所作主要工作:(1)系统的阐述了分类、基因表达式编程和粗糙集理论的相关知识及研究现状,对粗糙集的核心内容属性约简问题进行了详细的介绍,指出遗传算法约简的不足。将遗传算法与基因表达式编程进行了比较,找出这两种进化算法的区别。(2)在对基因表达式编程进行理论分析的基础上,研究如何改进属性约简算法,提出了基于GEP的约简算法,即ARRS_GEP算法。采用不同的约简方法进行实验,验证ARRS_GEP算法的有效性。(3)分类问题中的很多算法都要求数据为离散的,比如,粗糙集等,本文针对这一问题提出采用临界值等宽区间离散法对连续特征进行离散。同时,对提取分类规则时存在的噪音数据的问题进行分析,提出在预处理层使用ARRS_GEP约简算法进行交叉、变异、重组、插串等操作,对条件属性进行约简,约简后再使用分类算法提取规则。(4)采用对某年上市公司失败的预测,对本文提出的分类模型进行验证,实验表明该模型减少了分类规则的复杂性,提取的分类规则简单,属性少。这表明该模型在知识约简和规则提取中是有效性。
其他文献
随着通信业务的广泛应用和网络制式的不断发展,通信网络的规模和复杂性迅速增加,网络运行中产生的故障告警的类型和规模也在急速增长。因此必须对通信网告警信息进行智能化管理
随着Web服务技术的发展与应用的普及,服务数量迅猛增加,给信息服务带来越来越大的压力,这就需要通过改进 Web服务的描述方法,对Web服务进行有效的管理,消除服务冗余,减轻网络负担,提
近几年来出现了许多基于不可靠的数据报传输的应用程序。这些应用都是对延迟敏感的程序,包括Internet电话,实时视频会议和在线游戏,比如Startcraft和Quack。然而,SSL/TLS协议是基
移动Ad Hoc网络是一个多跳的、自组织、无中心的网络,它不依赖于任何固定的基础设施便能实现网络的快速组建。网络中的移动节点同时具备路由器和主机两种功能。Ad Hoc网络中节
用溜井溜放矿岩,简单方便,安全可靠,通过能力大、能充分节省资源,经营费用低,故溜井在矿上开拓中得到广泛的应用。它与平硐、竖井、斜井、斜坡道等主要开拓井巷配合,可以构成各种灵
通信技术和计算技术的迅速发展,使得网络领域产生日新月异的变化,极大地推动了人类社会的发展,而无线局域网技术作为一种新兴的网络接入手段,以其移动性、灵活性、经济性等优点更
敦煌壁画以其极高的艺术研究价值,在国内外享有很高的声誉。然而,在人类活动和自然环境的双重影响下,很多石窟壁画糟到破损,急需保护。目前,浙江大学与敦煌研究院进行合作,共
基站是现代移动通讯的基础设备,基站管理水平直接决定移动通讯服务的质量和效率。基站维护管理信息系统是管理和维护通信基站的信息系统,对提高维护效率、降低维护成本具有重要
指纹识别是目前应用最为广泛的生物特征识别手段,通过它可以快速准确地鉴定一个人的身份信息。但是自动化的指纹识别需要大规模的指纹数据库作为算法训练库,而采集指纹数据涉及
随着互联网上信息量的爆炸式增长和空间信息科学的发展,在很多应用中都需要求给定对象的kNN和RkNN,如在文本分类、智能导航、现代通讯、交通控制、气象预报等各个领域都有着广