基于基因表达式编程的分类与聚类研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:by_huang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘中的分类与聚类问题一直都是研究的热点,因为它们贴近实际生活,能为人们提供各种应用模型。近年来对分类和聚类的研究也从纵向研究逐渐转变为横向研究,即与其他算法进行融合,利用其他算法优势和特性来完成分类和聚类的目的。在大数据时代背景下,数据挖掘中的分类与聚类问题也将会越来越受到人们的关注,正所谓“物以类聚,人以群分”。基因表达式编程是由葡萄牙进化生物学家Ferreira提出的,它开创性的融合了遗传算法和遗传编程的优点,使其具有广阔的搜索能力和无穷的变化性。它的应用十分广泛,涉及生物,数学,计算机应用,物理等科学领域。本文基于基因表达式编程的分类与聚类研究,是将数据挖掘中的规则分类和K-means聚类算法,分别与基因表达式编程算法相结合,利用基因表达式编程的进化的特性及全局搜索能力,继而完成规则分类和聚类的研究。两种算法的融合,能够互相取长补短,为数据挖掘领域输入新思想,为基因表达式编程算法的应用又添新的一笔。本文的主要工作包括如下方面:1.将基因表达式编程用于挖掘规则,从而对使用规则的问题进行分类。首先,针对规则分类问题,设计出了一种新形式的染色体终端符号,引入规则的正确率作为适应度函数度量;其次将适应度由高到低排序,建立备选规则集;最后通过使用基因表达式编程挖掘Monk与Acute Inflammations中的规则,利用挖掘出的规则对数据集进行分类。实验表明基于基因表达式编程的挖掘规则分类算法的准确率会高于传统的分类算法。2.提出基于基因表达式编程的K-means聚类分析,该方法是对基于基因表达式编程的自动聚类算法的一种改进。首先,在基于基因表达式编程的自动聚类算法的基础上,对染色体的编码及解码进行了适当的改进,能够避免无效染色体的出现。其次在算法中加入了最优簇数目选取算法,并引用了K-means算法中的迭代重定位方法,使得到的聚类簇数目更加准确,直观有效的提高了聚类的效果。最后通过对150个二维点的聚类,实验表明了基于基因表达式编程的K-means聚类算法正确率高,收敛速度更快。
其他文献
软件的应用领域越来越广,人们对软件质量的要求也越来越高。面向对象软件技术也已经得到广泛应用,面向对象软件度量也就更重要起来。当前,已经有很多面向对象度量被提出,并在不断
随着电子集成技术的快速发展,片上系统设计过程变的日益复杂。传统设计方法由于在软硬件设计过程使用不同语言从而造成系统描述不一致、后期细化设计阶段人工将高级语言转化为
本文首先介绍了网络流媒体技术,流媒体的结构和技术特征、传输协议及提供的服务,对当前著名的视频编码标准H.264和MPEG-4进行的简单的分析,以及流媒体的应用领域。其次,根据
网络管理的目标是最大限度地增加网络的可用时间,提高网络设备的利用率、网络性能、服务质量和安全性,提供网络的长期规划。随着网络规模的不断扩大、用户的快速增长,以及日
网络教育是一种基于互联网的传播手段进行学习与教育的一种新型的教育培训方式。当前商业化的网络教育平台大多数是基于B/S、C/S模式的,这种模式最主要的缺点是交互性差、实时性
质量控制是企业生产中最重要的一环,质量控制方法一直都是制造业研究的热点。目前基于数据挖掘的质量控制方法是研究的热点,有不少研究人员围绕数据挖掘提出了各种不同的质量控
随着信息技术和互联网的迅速发展,网络信息安全问题已经成为当今倍受关注的问题,对网络通信中的信息安全问题的研究是当前信息时代的迫切需要。本文设计并实现了一个安全通信系
通过在单个芯片上集成成千上万个简单处理核来获得高性能和高吞吐量,已成为目前计算机体系结构研究的热点。虽然众核芯片上的单个简单处理核不具备复杂控制逻辑,在开发指令级
近些年来,由于移动通信和蜂窝电话的发展趋势非常迅速,无线设备网络容量的需求与频率资源的受限已在实际网络运营中日益暴露,并严重困扰着各个移动通信运营商。合理的网络规划和
随着计算机技术的不断发展,特别是网络技术的不断发展,企业信息系统和以往相比,也有了巨大的进步。企业级的应用不再满足于单机系统和简单的客户/服务器系统,而是向着三层或