基于深度学习的RNA编辑位点识别算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:sakula617
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA编辑是一种稀有的转录后序列修饰过程,通过碱基插入、缺失或替换使成熟RNA与模板DNA序列不同,是对中心法则的重要补充。RNA编辑可以通过影响mRNA的亚细胞定位和调节异染色质的基因沉默来引起基因表达产物的多态性,还能够改变非编码RNA序列及其与靶基因的相互作用。然而,已有RNA编辑位点识别方法严重依赖于先验知识和公共基因组注释,存在着工程复杂、精度不高、泛化能力差的问题。同时,高通量测序技术产生的海量多组学数据对RNA编辑位点的识别提出了巨大的挑战。针对RNA编辑位点识别目前存在的问题和挑战,本研究通过利用深度学习的方法,实现了两种基于深度学习的RNA编辑位点识别算法,在准确识别RNA编辑位点的同时,避免了繁杂的手工过滤步骤,且具有良好的跨细胞系泛化能力。主要包括以下三个方面的工作:1.基于ENCODE计划的RNA编辑位点金标集构建方法。由于RNA编辑位点识别目前没有公共的金标集,为了后续利用深度学习来自动从样本集中提取和学习RNA编辑位点的基本特征,我们提出了一种基于ENCODE计划的RNA编辑位点金标集构建方法,利用ENCODE计划中32个细胞系的RNA-Seq数据来构建金标集作为后续深度学习算法的样本集。2.基于双向LSTM的RNA编辑位点识别算法rnnRed。针对RNA编辑位点识别目前存在的问题和挑战,我们设计实现了一种基于双向LSTM的RNA编辑位点识别算法rnnRed,通过前后两个方向来自动从样本集中提取和学习RNA编辑位点的基本特征。该算法避免了基于先验知识和公共基因组注释的繁杂手工过滤步骤;可以从包含各种复杂类型的变异位点集合中准确识别RNA编辑位点;在11个训练集细胞系和21个测试集细胞系中分别取得了95.97%和95.82%的平均AUC面积,具有良好的跨细胞系泛化能力。3.基于Res Net的RNA编辑位点识别算法cnnRed。针对RNA编辑位点识别目前存在的问题和挑战,我们设计实现了一种基于ResNet的RNA编辑位点识别算法cnnRed,通过基于残差网络的卷积神经网络来自动从样本集中提取和学习RNA编辑位点的基本特征。该算法避免了基于先验知识和公共基因组注释的繁杂手工过滤步骤;可以从包含各种复杂类型的变异位点集合中准确识别RNA编辑位点;在11个训练集细胞系和21个测试集细胞系中分别取得了96.74%和96.65%的平均AUC面积,具有良好的跨细胞系泛化能力。
其他文献
数字音频的广泛应用与易于传播,使其版权保护等问题成为人们关注的焦点。数字水印技术是解决版权保护问题的一种有效技术。针对数字音频的版权问题本文研究了数字音频的水印
在非线性光学领域,混沌现象是当前最重要的研究热点之一。光学混沌具有内在随机性、对初值敏感、长期不可预见等特性,在保密通信、光学图像加密、真随机数生成等领域具有广阔
纳米材料被誉为21世纪最有前途的材料,作为纳米材料其中之一,量子点因具有优越的的光电学性质,如宽而连续的吸收峰;窄而对称的发射峰;可调频性;量子产率高;荧光寿命长等,被广
随着科技的发展和进步,越来越多的设备拥有了获取图像信息的能力。然而由于工作场景、经济条件或设备硬件条件的限制,很多成像设备获取的图像分辨率不高,不能满足实际要求,给
基于氧化物薄膜的阻变随机存储器(resistance random access memory,RRAM)作为下一代非易失性存储器的有力竞争者,尽管表现出了结构简单、低功耗、高密度、存取速度快、可三维
在集成电路的失效分析中,对待功能性失效集成电路,仅仅凭靠一类缺陷定位技术难以高效准确地锁定此中的硬缺陷。因为软缺陷可能会引起集成电路的功能性测验结果随着温度或其它
近些年中国经济飞速发展,公路运输仍然是我国境内货物运输的中流砥柱,而且比重在逐年稳步升高,载重型货车在公路货物运输过程中发挥着无可替代的作用,载重型货车的增长率常年
在生活日益现代化的今天,桥梁、高楼、大坝、隧道等大型建筑物扮演着越来越重要的角色,这些大型建筑物在建造和长时间的使用过程中,由于受各种内力和外力的影响会产生微小形
图像在生成、传输、处理等过程中会有许多失真,模糊是最常见的一种。当前学术界涌现了许多去模糊算法,但是缺乏对去模糊图像质量的理想评价方法。本文是针对去运动模糊图像质
汽车蓄电池是汽车的重要部分,随着汽车产量的增加,对蓄电池的需求量越来越大。现有汽车蓄电池存在两方面问题:一是用户难以获得蓄电池寿命以及当前信息状态,在汽车行驶过程中