论文部分内容阅读
近年来,数据挖掘引起了社会的极大关注,主要是随着互联网的发展,以及我们产生和收集数据信息的能力不断提高,电子信息的数量与日俱增,已经庞大到了难以在大量数据中提炼出关键信息的地步。而数据挖掘就是一门将巨大的数据转换成有用信息的学科。
而演化算法作为人工智能中的热门算法,也受到了广大学者的广泛重视。与传统算法相比,演化算法具有自组织性、自适应性、并行性、多解性、全局优化性、内在学习性、统计性和稳健性等特征,因此,演化算法的应用领域也比较广泛,也是当代多学科交叉的产物。
本文的研究目标是综述遗传算法在数据挖掘分类算法上的应用,总结其规律和不足,并尝试提出遗传算法在分类算法上的新的应用点。本文在综述了大部分遗传算法应用方法后,特别的对朴素贝叶斯算法和支持向量机用于排序算法进行了创新的改良和实验,并取得了一定的效果。
首先本文阐述了演化算法中最具有代表性的遗传算法的原理和特征,介绍其发展历史和研究现状等。从遗传算法的生物学基础、编码方式以及交叉、变异、选择等关键操作上做了比较详细的介绍和分析。
然后本文阐述分析数据挖掘中的各有代表性的分类算法的原理思想、优缺点以及研究现状等,针对常见的6种分类方法进行详细的介绍。在UCI标准数据集上对6种算法进行对比实验,为后续的研究做好准备。
之后本文归纳综述遗传算法在数据挖掘分类算法中的研究成果。对于SVM、神经网络、KNN等问题的遗传算法优化基本都属于参数以及结构的优化问题,而对于贝叶斯、决策树等算法的优化属于属性以及样本筛选问题,对于规则、模糊集、关联规则等的挖掘则是直接使用遗传算法发现。如果对于这些问题进行归纳、整理、分析,有助于发现和解决其中的共同点和存在的问题,研究遗传算法在分类算法中的使用规律。本文通过理论上的说明和分析,介绍了分类算法中的遗传操作。
最后,结合已有的分类算法以及遗传算法的技术,尝试将遗传算法运用到新的数据挖掘分类算法上。本文提出了一种自适应的遗传算法应用在朴素贝叶斯文本分类算法的特征选择上取得了较好的效果,通过自适应的遗传算法的选择得到的新的特征下使用相同的训练样本,可以训练出分类准确率更高的朴素贝叶斯分类器模型;本文还提出一种将遗传算法应用在RankSVM算法的参数优化中的方法,通过遗传算法优化的RankSVM的容错率参数,使得RankSVM训练出的模型计算得到的结果NDCG得分得以提升,取得了较好的效果。