论文部分内容阅读
生物数据的注释一直是生物学家的一个具有挑战性的任务,其中对RNA序列编码能力的分类是十分关键的一步。随着大规模高通量测序的应用,产生的RNA序列数据量的急剧增加,对高效和精确区分编码RNA与非编码RNA的方法提出了更高的要求。目前使用的模型为浅层模型,基本上是手工寻找特征,然后输入到分类器进行分类。这些模型的缺陷是严重依赖手工提取的特征,特征的好坏决定模型最终的效果,而且扩展性极差。近年来深度学习是机器学习领域里一个新的研究方向,以其高效的特征抽取和强大的建模能力,在自然语言处理、计算机视觉等多个任务里面取得很好地效果,因而得到广泛的研究和应用。深度学习需要大量的数据,而RNA序列数据具备这个条件,因此可以将深度学习应用到RNA编码标注的任务中。 本文主要是以深度学习为基础,基于RNA序列的不同特性,分别设计了两个模型,其中SPPNet利用CNN对RNA序列的局部相关性建模,BrnnNet利用RNN对RNA序列的上下文依赖关系建模,这两个模型在Ensembl数据集上取得优异的效果。这两个模型能够自动抽取有效特征,不需要人工添加任何额外的特征,因而可以消除人类对RNA认识不全的局限性,还有可能发现一些新的模式,并利用这些模式来提高模型的准确性。此外,通过将改模型应用到不同物种之间序列的判别,来研究和验证不同物种之间的保守性。 本文的主要目的是将深度学习方法和生物信息数据处理分析进行结合,探索深度学习在生物数据上的有效性,并利用其提高RNA序列编码能力注释的效率和准确性。