改进聚类分析算法及其在DNA序列中的应用

来源 :吉林农业大学 | 被引量 : 0次 | 上传用户:chueri1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘中的一种跨学科、跨领域的数据分析方法,由于现今社会的发展需求,聚类分析算法被应用的范围以及频率越来越多,因此,改进的聚类分析算法也相应增多。鉴于诸多问题在分类界线上模糊,使得人们无法确定,因此模糊聚类的应用逐渐被广泛。国内外的许多专家学者逐渐的将聚类分析问题转变为图划分问题,以图为基本思想,将问题进行聚类的谱聚类也逐渐受到追捧。模糊聚类和谱系聚类一跃成为研究热点,但是针对某些问题时,两种聚类算法并不能通用,并且都存在一些缺陷,为进一步优化聚类算法,便可以借助一些其他的方法将两者结合达到优化算法的目的,提高聚类分析的性能。
  我国作为农业大国,玉米一直以来都是主要农作物之一,然而随着玉米需求量的增加却没有带来玉米产量的增加,其主要因素便是玉米的病虫害,而玉米螟则是主要的玉米害虫。现阶段我国针对玉米螟的防治手段有化学防治、生物防治和农业防治三种手段,但是都没有针对性,效果不够明显。
  为了进一步研究不同种类玉米螟的生长发育过程的习性,以达到更好地防治效果。本文提出了玉米螟在寄主和地理位置上存在类别差异的猜想,然后利用已知地理位置和寄主的玉米螟基因数据,采用遗传多样性分析和改进的聚类分析对所提出的猜想进行研究,并且利用SVM分类对聚类分析结论进行检验。在聚类分析的改进环节,本文提出一种将分子连接性指数、层次分析法和Mahalanobis距离法相互融合的改进聚类分析方法。首先在特征选择上,引入了分子连接性指数的方法,有效的避免了单纯碱基百分比含量作为特征所导致的聚类结果界限不清的问题;其次在特征值处理中,运用层次分析法对不同特征进行相对重要性差异判断,并且利用Mahalanobis距离法构建模糊相似矩阵,有效的解决了传统聚类方法中各因素的相关性对于聚类所产生得干扰,以及不同的特征对聚类目标存在重要性差异的问题。改进的聚类分析通过MATLAB软件编程实现,得出基于不同地理位置的玉米螟存在种群差异,而基于不同寄主的玉米螟并不存在种群差异。同时改进后的算法与传统的算法相比,改进后的聚类分析算法没有变量间相关性干扰,聚类效果更好,聚类准确度更高;最后利用SVM分类器,将基于不同地理位置的玉米螟基因序列进行分类检验,结果表明,改进后的聚类分析算法所得到的玉米螟在地理位置上存在种群差异的结论具有较高的可信度。
其他文献
输出饱和又称为传感器饱和,广泛地存在于实际的物理控制系统之中。其产生的原因是传感器装置只能提供有限的测量范围。当传感器发生饱和时,控制器将得不到被控对象准确的状态或输出信息,影响系统的性能甚至造成失稳。另一方面,在网络化控制系统中,受限的网络传输带宽和计算资源往往会导致网络拥堵、数据丢包、传输延迟等问题。事件触发策略作为一种非周期的采样控制方法可以在保证系统期望性能的同时,有效地配置有限的通讯资源
随着数据爆发式的增长以及深度学习的迅速发展,高阶统计信息被广泛应用于各大视觉任务中。度量学习是一种基于样本之间距离从而度量样本之间相似性的机器学习算法。传统的度量学习的方法主要针对低维度的向量特征。然而近年来的研究工作表明基于高阶信息统计量的度量学习算法普遍优于基于低阶统计量的算法。相比于低阶信息,基于高阶统计量的方法能够更好地保留图像的结构信息。基于黎曼流形上度量学习方法可以有效地利用高阶流形上
学位
互联网技术的快速发展丰富了大众的发声渠道,论坛愈加成为聚集舆论舆情的窗口,以评论为代表的主观情绪表达不断以海量且分散的形式出现在其网页之中,基于此,从信息冗余、形式多样的论坛网页中精准挖掘出有价值信息用于舆情分析具有深刻的社会意义,这也是开展此研究的重要立足点。本文以论坛网页为研究对象,对论坛信息抽取算法与情感分析算法进行了研究,主要研究内容如下:  (1)针对论坛网页中普遍存在大量噪音信息导致抽
学位
类脑计算是指借鉴大脑信息处理机制的新型计算范式,包含硬件实现、计算架构与模型算法在内的多个层面。类脑计算一方面有利于从模型计算角度理解大脑信息处理机制,另一方面有利于开发新一代超级计算系统。神经科学的研究表明,人脑不同时空尺度下的不同层次神经信息处理机制对于认知活动存在不同水平的影响。目前类脑计算依然停留在脉冲神经网络、深度学习等层面的研究,而依据不同层次人脑工作机制的类脑计算研究还比较缺乏。  
学位
目前肺癌发病率和死亡率均位于恶性肿瘤之首,对人类健康造成严重威胁。居高不下的肺癌发病率和死亡率是多方面因素影响的结果。首先,肺癌筛查主要采用的CT技术,是形态性病变检测方法,很难发现处于功能性病变期的早期肺癌,使患者错过最佳治疗时机。电阻抗层析成像(Electrical Impedance Tomography, EIT)技术作为新型功能性成像方法,在早期肺癌筛查方面具有非常好的发展前景,然而其空
学位
基于2017年MODIS归一化植被指数(NDVI)数据,采用Savitzky-Golay (S-G)滤波方法和非对称高斯(AG)拟合方法重构辽宁省春玉米种植面积的NDVI时序曲线,使用4次拟合法平滑重构曲线,采用动态振幅阈值法、拐点法和最大值法提取了辽宁省春玉米的关键物候期(出苗期、拔节期、抽雄期),并联合决策树分类法估测了辽宁省春玉米的种植面积。结果表明:基于S-G重构法的MODIS NDVI时
随着城市化水平的突飞猛进以及机动车保有量迅速上升,道路交通流量急剧增加,交通拥挤和堵塞的问题日益严重,传统的交通管理方式已经无法满足复杂多变的交通需求,严重制约和影响着社会经济的可持续发展。近年来,在信息化时代背景下,智慧交通建设为解决城市交通问题提供了新的思路和方法,也是我国交通强国和智慧城市建设的重要切入点,大力发展智慧交通逐渐成为新时期城市交通管理的普遍共识及必由之路,现实意义重大。目前,智
LTE-Advanced(LTE-A)系统,通过持续演进为用户提供更快速、更便捷的移动网络服务。在未来的移动网络中,除了数量庞大的用户设备将要接入蜂窝网络以外,不断增长的服务也需要在传输时区别对待以达到其要求的服务质量。然而,在系统资源有限的情况下,当前网络的传输能力仍然远远落后于市场需求。因此LTE-A系统采用了一些创新性的解决方案提升网络的性能,例如异构蜂窝网络技术、无线回程技术、D2D(de
学位
视觉单目标跟踪是计算机视觉领域的基本任务之一。现实生活中,各种干扰因素,如遮挡、形变、相似物干扰、分辨率低、背景嘈杂等,导致目标在运动过程中表观形状发生变化,加剧了目标跟踪的难度。近年来,基于相关滤波器(Correlation Filter, CF)和深度学习(Deep Learning)的方法明显改进了跟踪性能。基于相关滤波器的模型具有高效的计算优势,而基于深度学习的方法则学习较强的特征表达能力
学位
传统的身份验证策略(如密码和智能卡)因为它们可以被共享、遗忘、复制、操纵或伪造,其安全性存在隐患。与传统方法不同,生物识别是基于人的生理或行为特征进行身份识别的科学,已成为确定个体身份的合法方法。如今,生物识别技术已不再局限于刑事执法,更多企业使用生物识别技术来管理对建筑物和信息的访问。然而,大多数单模态生物特征识别受到诸如噪声数据,非普遍性和欺骗攻击之类的限制,使得它无法达到现实世界应用的性能要
学位