论文部分内容阅读
聚类分析是数据挖掘中的一种跨学科、跨领域的数据分析方法,由于现今社会的发展需求,聚类分析算法被应用的范围以及频率越来越多,因此,改进的聚类分析算法也相应增多。鉴于诸多问题在分类界线上模糊,使得人们无法确定,因此模糊聚类的应用逐渐被广泛。国内外的许多专家学者逐渐的将聚类分析问题转变为图划分问题,以图为基本思想,将问题进行聚类的谱聚类也逐渐受到追捧。模糊聚类和谱系聚类一跃成为研究热点,但是针对某些问题时,两种聚类算法并不能通用,并且都存在一些缺陷,为进一步优化聚类算法,便可以借助一些其他的方法将两者结合达到优化算法的目的,提高聚类分析的性能。
我国作为农业大国,玉米一直以来都是主要农作物之一,然而随着玉米需求量的增加却没有带来玉米产量的增加,其主要因素便是玉米的病虫害,而玉米螟则是主要的玉米害虫。现阶段我国针对玉米螟的防治手段有化学防治、生物防治和农业防治三种手段,但是都没有针对性,效果不够明显。
为了进一步研究不同种类玉米螟的生长发育过程的习性,以达到更好地防治效果。本文提出了玉米螟在寄主和地理位置上存在类别差异的猜想,然后利用已知地理位置和寄主的玉米螟基因数据,采用遗传多样性分析和改进的聚类分析对所提出的猜想进行研究,并且利用SVM分类对聚类分析结论进行检验。在聚类分析的改进环节,本文提出一种将分子连接性指数、层次分析法和Mahalanobis距离法相互融合的改进聚类分析方法。首先在特征选择上,引入了分子连接性指数的方法,有效的避免了单纯碱基百分比含量作为特征所导致的聚类结果界限不清的问题;其次在特征值处理中,运用层次分析法对不同特征进行相对重要性差异判断,并且利用Mahalanobis距离法构建模糊相似矩阵,有效的解决了传统聚类方法中各因素的相关性对于聚类所产生得干扰,以及不同的特征对聚类目标存在重要性差异的问题。改进的聚类分析通过MATLAB软件编程实现,得出基于不同地理位置的玉米螟存在种群差异,而基于不同寄主的玉米螟并不存在种群差异。同时改进后的算法与传统的算法相比,改进后的聚类分析算法没有变量间相关性干扰,聚类效果更好,聚类准确度更高;最后利用SVM分类器,将基于不同地理位置的玉米螟基因序列进行分类检验,结果表明,改进后的聚类分析算法所得到的玉米螟在地理位置上存在种群差异的结论具有较高的可信度。
我国作为农业大国,玉米一直以来都是主要农作物之一,然而随着玉米需求量的增加却没有带来玉米产量的增加,其主要因素便是玉米的病虫害,而玉米螟则是主要的玉米害虫。现阶段我国针对玉米螟的防治手段有化学防治、生物防治和农业防治三种手段,但是都没有针对性,效果不够明显。
为了进一步研究不同种类玉米螟的生长发育过程的习性,以达到更好地防治效果。本文提出了玉米螟在寄主和地理位置上存在类别差异的猜想,然后利用已知地理位置和寄主的玉米螟基因数据,采用遗传多样性分析和改进的聚类分析对所提出的猜想进行研究,并且利用SVM分类对聚类分析结论进行检验。在聚类分析的改进环节,本文提出一种将分子连接性指数、层次分析法和Mahalanobis距离法相互融合的改进聚类分析方法。首先在特征选择上,引入了分子连接性指数的方法,有效的避免了单纯碱基百分比含量作为特征所导致的聚类结果界限不清的问题;其次在特征值处理中,运用层次分析法对不同特征进行相对重要性差异判断,并且利用Mahalanobis距离法构建模糊相似矩阵,有效的解决了传统聚类方法中各因素的相关性对于聚类所产生得干扰,以及不同的特征对聚类目标存在重要性差异的问题。改进的聚类分析通过MATLAB软件编程实现,得出基于不同地理位置的玉米螟存在种群差异,而基于不同寄主的玉米螟并不存在种群差异。同时改进后的算法与传统的算法相比,改进后的聚类分析算法没有变量间相关性干扰,聚类效果更好,聚类准确度更高;最后利用SVM分类器,将基于不同地理位置的玉米螟基因序列进行分类检验,结果表明,改进后的聚类分析算法所得到的玉米螟在地理位置上存在种群差异的结论具有较高的可信度。