论文部分内容阅读
RNA编辑是一种稀有的转录后序列修饰过程,通过碱基插入、缺失或替换使成熟RNA与模板DNA序列不同,是对中心法则的重要补充。RNA编辑可以通过影响mRNA的亚细胞定位和调节异染色质的基因沉默来引起基因表达产物的多态性,还能够改变非编码RNA序列及其与靶基因的相互作用。然而,已有RNA编辑位点识别方法严重依赖于先验知识和公共基因组注释,存在着工程复杂、精度不高、泛化能力差的问题。同时,高通量测序技术产生的海量多组学数据对RNA编辑位点的识别提出了巨大的挑战。针对RNA编辑位点识别目前存在的问题和挑战,本研究通过利用深度学习的方法,实现了两种基于深度学习的RNA编辑位点识别算法,在准确识别RNA编辑位点的同时,避免了繁杂的手工过滤步骤,且具有良好的跨细胞系泛化能力。主要包括以下三个方面的工作:1.基于ENCODE计划的RNA编辑位点金标集构建方法。由于RNA编辑位点识别目前没有公共的金标集,为了后续利用深度学习来自动从样本集中提取和学习RNA编辑位点的基本特征,我们提出了一种基于ENCODE计划的RNA编辑位点金标集构建方法,利用ENCODE计划中32个细胞系的RNA-Seq数据来构建金标集作为后续深度学习算法的样本集。2.基于双向LSTM的RNA编辑位点识别算法rnnRed。针对RNA编辑位点识别目前存在的问题和挑战,我们设计实现了一种基于双向LSTM的RNA编辑位点识别算法rnnRed,通过前后两个方向来自动从样本集中提取和学习RNA编辑位点的基本特征。该算法避免了基于先验知识和公共基因组注释的繁杂手工过滤步骤;可以从包含各种复杂类型的变异位点集合中准确识别RNA编辑位点;在11个训练集细胞系和21个测试集细胞系中分别取得了95.97%和95.82%的平均AUC面积,具有良好的跨细胞系泛化能力。3.基于Res Net的RNA编辑位点识别算法cnnRed。针对RNA编辑位点识别目前存在的问题和挑战,我们设计实现了一种基于ResNet的RNA编辑位点识别算法cnnRed,通过基于残差网络的卷积神经网络来自动从样本集中提取和学习RNA编辑位点的基本特征。该算法避免了基于先验知识和公共基因组注释的繁杂手工过滤步骤;可以从包含各种复杂类型的变异位点集合中准确识别RNA编辑位点;在11个训练集细胞系和21个测试集细胞系中分别取得了96.74%和96.65%的平均AUC面积,具有良好的跨细胞系泛化能力。