SVM与ESOM在生物序列对比与预测中的应用研究

来源 :西安石油大学 | 被引量 : 0次 | 上传用户:lijichen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在新的世纪,随着生物学理论的全面快速发展,以生物序列对比为代表的生物信息学也受到了极大的重视并进入了快速发展的时期。生物序列对比的快速发展使得海量生物数据的处理变得更加方便,对于探索和揭示生物的内在信息十分有利。过去的生物序列对比研究主要是基于传统统计学的理论,在海量数据和信息的处理中存在很大的随机性和不确定性,受到人为因素的干扰和影响是十分明显的。由于传统统计学对生物数据的分析主要使用线性化的方式,因此,处理时间冗长,效率低下。所以,把具有良好的数据分析性能的支持向量机(SVM)和涌现自组织特征映射(ESOM)应用到生物序列对比的研究中是有益的尝试。支持向量机拥有对高维数据分类性能良好的特点,神经网络具备联想记忆、优化计算、知识处理、分类与识别和非线性映射的特点。涌现自组织特征映射是基于涌现的思想产生的,其输出层是由大量神经元构成的,并且能够把聚类的结果映射到超环面,形成可视化的直观图形。SVM和ESOM的使用对于序列对比问题的研究能够解决分类结果不直观、神经元竞争与协同不充分等问题。本文将这二者结合起来,应用于基因序列的对比。在研究和实验的过程中,建立了识别模型,首先对基因序列数据进行预处理,这就要对基因序列进行赋值,使其变为数值化的序列数据;随后要对数值化后的基因序列数据进行归一化,并对归一化后的序列数据做交叉验证,从而实现对其特征的提取。其次,要在ESOM网络中构建合理网络模型,包括构建合理的输出层、确定训练模式、初始化权值向量、选择邻域半径和学习率的衰减策略。最后,运用样本数据对ESOM的网络模型进行训练,得到最终的聚类结果,并对聚类结果进行可视化,以图形的形式将其体现出来。然后将测试数据代入网络模型中进行分类和预测,得到分类和识别的结果。由于本文采用了两次分类的方法,结果的精确度相对较高。根据最终的结果分析,网络模型的性能良好,解决问题的可靠度高,拥有较好的研究和应用价值。
其他文献
纳米氧化锌能够诱导自由基的产生,对机体造成氧化损伤。目前,对纳米氧化锌急性毒性、亚慢性毒性的研究结果存在很大差异。该研究系统评价纳米氧化锌的急性毒性、亚慢性毒性,
理想的实现是一个艰难曲折的漫长实践过程,经常会面临各种矛盾冲突、压力挫折、利益诱惑。延迟满足有助于人们在理想追寻途中主动放弃及时满足、抵抗诱惑、忍耐寂寞、锲而不
目的:探讨静脉用药调配中心流程细节优化,提高工作质量的方法。方法:介绍每个流程细节的优化,并且随机抽取优化前后各1个月的配置液体量的数据,统计学处理。结果:每个流程优化前
有效预测地下水资源量对旱情防范具有重要意义。以往预测方法大多需要大量历史数据或构造复杂的模型,操作的难度较大,考虑到地下水资源量呈现的不确定性与时滞积累性,可将灰