论文部分内容阅读
RNA与蛋白质结合形成的复合物在许多生物过程中起关键作用,然而通过生物实验检测RNA-蛋白质相互作用非常耗时费力,开发计算预测工具势在必行。计算工具的预测性能依赖于两个因素,即RNA序列的特征表示和分类模型,在现有方法中,统计特征或one-hot向量是常见的特征表示方法,同时大多数分类器都使用传统的机器学习模型,而分布式特征表示和灵活的深度学习架构尚未被深入研究。因此,在本研究中,我们通过连续分布特征表示RNA序列,并提出一种混合深度学习架构,将两个神经网络框架CNN和RNN进行有效组合,充分利用各自优势,其中卷积神经网络(CNN)学习高级抽象特征,循环神经网络(RNN)学习序列中的长依赖性。针对RNA世界的后起之秀环状RNA(circRNA),我们构建CRIP(CircRNA Interact with Proteins)模型,它仅使用RNA序列预测环状RNA上的蛋白质结合位点。为了充分利用序列信息,我们还提出了一种堆叠式密码子编码方案。实验结果表明,新的编码方案优于现有用于RNA序列的特征表示方法,并且混合网络大大优于传统的分类器,CNN和RNN组件都有助于提高性能。据我们所知,CRIP是第一个基于机器学习专门用于预测环状RNA和蛋白质相互作用的工具,预计将在环状RNA大规模功能分析中扮演重要角色。