基于最小能量模型的RNA二级结构预测

来源 :福建农林大学 | 被引量 : 0次 | 上传用户:erikwg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA分子是重要的细胞成分,其涉及许多基本的生物过程。了解它们的功能背后的机制就需要RNA三级结构知识。而目前直接对RNA进行三级结构的理论预测进展都不太顺利,因而通过预测二级结构的研究方法来获取其三级结构成为一个必然趋势。本文首先对RNA构成、分类、结构、功能等相关理论进行论述,引入了用以预测RNA二级结构的热力学模型,并对已有的预测算法进行深入的分析,包括基于序列比对和基于最小自由能思想两大类。通过比较分析,基于序列比对的算法受限于已有序列的先验知识,且时间和空间复杂度较高;基于最小自由能思想的算法也存在精度不够高或时间复杂度较高的问题,比如基于离散Hopfield神经网络(DHNN)在预测RNA二级结构时虽然有着很快的收敛速度,却易于陷入局部最优,影响算法预测精度。针对上述问题,本文在离散Hopfield神经网络基础上提出一种结合禁忌搜索算法的TS_DHNN混合算法,以DHNN算法为主算法来较快的获取可行解,再利用TS算法“禁忌”当前解以转移到目标函数其他的极小点,使得搜索跳出局部最优,达到全局最优。同时,在算法的实现过程中,考虑到DHNN算法对初始值的依赖性,在初始化神经元时采取一种改进的方法,即通过引进距离函数,赋予不同神经元以各异的初始值。另外,在算法进行整体能量计算的步骤中采取一种预处理的方法,减小算法的时间和空间复杂度。通过实验验证,分别从茎区水平和碱基水平测试本文TS_DHNN算法的预测精度,并与单独的DHNN算法﹑TS算法及RNAStructure的预测精度作比较,得出以下结论:①TS_DHNN算法是稳定有效的,其正确预测茎区的个数与实际茎区的个数基本吻合,可以达到80%的精度。②本文的算法无论是从单独预测一个tRNA或RNase PRNA序列来看,还是从总的预测情况来看,都明显优于其他单独的算法,证明本文的混合算法对RNA的预测精度方面起到积极作用。
其他文献
植物是植食性动物生长繁殖所必须的食物来源,植物会产生化学物质保护自己以抵御动物的取食,而动物会对这些植物化学物质产生的影响作出相对应的适应策略,这就导致了动物与植
模板法因其结构规整、操作方便、易于控制等优点已成为合成一维纳米材料的首选方法。在模板法中,水凝胶作为合成无机纳米材料的模板已得到广泛研究和应用,但仍存在着机理不明