基于机器学习的RNA与蛋白质绑定位点预测研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lidandanlidd12141
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA与蛋白质结合形成的复合物在许多生物过程中起关键作用,然而通过生物实验检测RNA-蛋白质相互作用非常耗时费力,开发计算预测工具势在必行。计算工具的预测性能依赖于两个因素,即RNA序列的特征表示和分类模型,在现有方法中,统计特征或one-hot向量是常见的特征表示方法,同时大多数分类器都使用传统的机器学习模型,而分布式特征表示和灵活的深度学习架构尚未被深入研究。因此,在本研究中,我们通过连续分布特征表示RNA序列,并提出一种混合深度学习架构,将两个神经网络框架CNN和RNN进行有效组合,充分利用各自优势,其中卷积神经网络(CNN)学习高级抽象特征,循环神经网络(RNN)学习序列中的长依赖性。针对RNA世界的后起之秀环状RNA(circRNA),我们构建CRIP(CircRNA Interact with Proteins)模型,它仅使用RNA序列预测环状RNA上的蛋白质结合位点。为了充分利用序列信息,我们还提出了一种堆叠式密码子编码方案。实验结果表明,新的编码方案优于现有用于RNA序列的特征表示方法,并且混合网络大大优于传统的分类器,CNN和RNN组件都有助于提高性能。据我们所知,CRIP是第一个基于机器学习专门用于预测环状RNA和蛋白质相互作用的工具,预计将在环状RNA大规模功能分析中扮演重要角色。
其他文献
住房对于百姓而言意义非凡。近十年来,随着中国房地产市场的迅速发展,大量涉及房屋的问题也逐渐显现。其中,商品房权属登记的办理问题占据了房产纠纷的很大一部分,常见诸于媒
分别测定富硒狮头柑果皮、果肉、果汁、柑渣、种子5个不同加工部位中总多酚、类黄酮、抗坏血酸、谷胱甘肽和类胡萝卜素的含量;通过单因素和响应面试验优化无机硒的提取工艺,
目的评价5种重金属暴露对秀丽线虫的生物毒性效应。方法以秀丽线虫、重金属等为关键词检索Pub Med、Web of Science、EBSCO、中国知网、万方等国内外数据库,检索时间为2004-0