论文部分内容阅读
在新的世纪,随着生物学理论的全面快速发展,以生物序列对比为代表的生物信息学也受到了极大的重视并进入了快速发展的时期。生物序列对比的快速发展使得海量生物数据的处理变得更加方便,对于探索和揭示生物的内在信息十分有利。过去的生物序列对比研究主要是基于传统统计学的理论,在海量数据和信息的处理中存在很大的随机性和不确定性,受到人为因素的干扰和影响是十分明显的。由于传统统计学对生物数据的分析主要使用线性化的方式,因此,处理时间冗长,效率低下。所以,把具有良好的数据分析性能的支持向量机(SVM)和涌现自组织特征映射(ESOM)应用到生物序列对比的研究中是有益的尝试。支持向量机拥有对高维数据分类性能良好的特点,神经网络具备联想记忆、优化计算、知识处理、分类与识别和非线性映射的特点。涌现自组织特征映射是基于涌现的思想产生的,其输出层是由大量神经元构成的,并且能够把聚类的结果映射到超环面,形成可视化的直观图形。SVM和ESOM的使用对于序列对比问题的研究能够解决分类结果不直观、神经元竞争与协同不充分等问题。本文将这二者结合起来,应用于基因序列的对比。在研究和实验的过程中,建立了识别模型,首先对基因序列数据进行预处理,这就要对基因序列进行赋值,使其变为数值化的序列数据;随后要对数值化后的基因序列数据进行归一化,并对归一化后的序列数据做交叉验证,从而实现对其特征的提取。其次,要在ESOM网络中构建合理网络模型,包括构建合理的输出层、确定训练模式、初始化权值向量、选择邻域半径和学习率的衰减策略。最后,运用样本数据对ESOM的网络模型进行训练,得到最终的聚类结果,并对聚类结果进行可视化,以图形的形式将其体现出来。然后将测试数据代入网络模型中进行分类和预测,得到分类和识别的结果。由于本文采用了两次分类的方法,结果的精确度相对较高。根据最终的结果分析,网络模型的性能良好,解决问题的可靠度高,拥有较好的研究和应用价值。