论文部分内容阅读
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着通讯技术的发展和计算机技术的普及,“数据爆炸而知识贫乏”问题的日渐突出,人们对数据分析工具的需求越来越强烈,而数据挖掘的出现为这一需要提供了有力的技术支持。 人们已逐渐认识到数据挖掘技术能将原始数据转换为有意义的形式,从中挖掘潜在蕴含的科学知识,具有巨大商业价值,从最初的商业应用到现在,数据挖掘已逐渐扩展到医疗、金融、生物、电信、军事、体育等诸多领域。经过十多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术,形成了以关联分析、分类、聚类分析、回归分析等为主要形式的应用技术。 分类(Classifier)是从训练数据找出一个类别的概念描述,它描述了这类数据的整体信息,依据概念描述来建立分类器,并用该模型来预测新的数据所属类,它是数据挖掘的主要分支之一。本文以遗传进化算法和贝叶斯推理为出发点,研究了他们的混合模型在分类中的应用。 遗传算法(Genetic Algorithm)是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的高效并行全局随机化搜索方法,在许多领域取得了良好的效果。遗传计算主要有三个分支:(1)基本的遗传算法(Genetic Algorithms,GAs)是演化计算中最重要分支之一;(2)遗传程序设计(Genetic Programming,GP)是基本遗传算法的一个变体;(3)基因表达式编程(GEP)是C.Ferreira发明的一种新的遗传算法。基因表达式编程结合了基本遗传算法和遗传程序设计的优点,克服了它们的缺点,GEP采用特殊的编码方式和翻译系统,将GEP的基因型和表现型巧妙的结合在一起,在解决符号回归、序列推理、时间序列等问题上,它比GP具有更优的性能。 朴素贝叶斯网络(Naive Bayes,NB)是一种快速有效的分类方法,但是它的属性独立假设不符合现实世界,同时也影响了NB的分类性能。扩展贝叶斯网络(Augmented Bayesian Network)考虑到了属性之间的条件依赖关系,但是,随属性数目(数据集的大小)的增加和属性之间的依赖关系(条件概率表)的复杂,贝叶斯信念网络所要搜索的空间变得异常庞大,由于推理概率、结构学习、参数估计等方面的NP—hard问题,通常被认为不适合处理实际问题。贝叶斯网络的研究主要有三个方向:(1)基于属性选择的方法,(2)基于属性扩展的贝叶斯网络,(3)基于实例空间的划分。 本文在研究演化算法的新分支——基因表达式编程(Gene Expression Programming,