基于深度神经网络的长非编码RNA预测方法研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:gaoxuan123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量转录组测序技术的发展和应用,数以万计的新型RNA得以发现,特别是长非编码RNA(long non-coding RNA,lncRNA)。研究表明,哺乳动物基因组大部分能够被转录,但具有蛋白质编码功能的基因只占其中的1%~2%,而其余都是具有转录活性的非蛋白质编码基因,其转录物称为非编码RNA(noncoding RNA,ncRNA)。过去被认为是“噪音”基因的ncRNA因其复杂的生物功能引起生物学家的注意,ncRNA已成为近年来基因组研究的热点之一。其中,lncRNA的转录本长度一般大于200nt,其翻译能力缺失或者翻译能力较低,并能够广泛参与复杂的生物功能。由于当前技术水平的限制,只有少量lncRNA的功能机制被确定,如调控哺乳动物2号染色体基因表达的HOTAIR,以及主导X染色体灭活过程的Xist等。对lncRNA的准确识别是lncRNA注释和功能研究的基础。传统用于lncRNA预测的计算方法主要有 CPC(Coding-Potential Calculator)、CNCI(Coding-Non-Coding Index)和 CPAT(Coding-Potential Assessment Tool)等。CPC 选取的特征包括开放阅读框(Open Reading Frame,ORF)的长度和质量,采用支持向量机(Support Vector Machine,SVM)模型训练数据。CPC方法在lncRNA预测方面有一定的准确性和容错性,但其训练数据过分依赖蛋白质库的准确性和序列保守性。CNCI主要采用密码子特性作为训练特征,与其他方法相比,CNCI预测精度较低,且耗时较长。CPAT整合多个物种的特征用于逻辑回归(Logistic Regression,LR)模型训练,以达到更好的预测效果。鉴于当前lncRNA注释越来越完善及相关数据不断增加,本文提出通过深度神经网络(Deep Neural Network,DNN)训练lncRNA预测模型,并命名为lncRScan-DNN。与现有的预测方法相比,DNN是一种快速、准确且适用于分类的算法。lncRScan-DNN选取的特征包括k-mer信息、转录本长度、密码子长度(CDS_length)、密码子长度占比(CDS_percentage)、密码子序列得分(CDS_score)和终止密码子标准差(stop_codon_std)。阳性样本数据来自lncRNA数据库GENCODE与NONCODEv5,阴性样本数据来自mRNA数据库UCSC与zflncRNApedia。为了减轻模型过拟合的影响,采用十折交叉验证方法对训练结果进行训练。通过与传统方法(包括CPAT、CNCI和CPA2)进行比较分析,lncRScan-DNN 在特异性(sensitivity)、准确性(accuracy)、马修斯系数(Matthews correlation coefficient)和 receiver operating characteristic curve 曲线(ROC)等性能指标表现更好。另外,lncRScan-DNN还在包括人类、小鼠、大鼠、猪、鸡、斑马鱼、黑猩猩和线形虫8个物种数据上进行了测试和比较,且性能较好。本文提出的lncRScan-DNN方法借助于整合的特征集合和深度神经网络算法,取得了良好的lncRNA预测性能,可作为lcnRNA分析的重要基础。
其他文献
新能源材料的开发与发展被广泛认为是解决人类能源危机的重要手段。有机无机杂化钙钛矿(OHP)以高效率和低成本的优势成为新一代备受关注的新能源材料,为未来能源领域带来了新的发展方向和机遇。相比于薄膜结构,钙钛矿纳米纤维结构具有更高的光生载流子传输效率和光学各向异性。为进一步探索钙钛矿纳米纤维结构的性能和加强对OHP电子浓度的调控,提出一种制备MAPbI_3微/纳米纤维双终端器件的自组装法。对器件的形貌
水资源对区域生态环境和经济发展有极为重要的作用。在部分干旱区,经济的粗放式增长超过了水资源的最大承载限度,导致供给循环遭到破坏,使水资源与人类生存发展的矛盾日益加深,因此对水资源承载力进行综合意义上的评价是应对干旱区水问题的首要任务。为客观、准确评价干旱区水资源承载力,论文从理论研究和评价方法两方面出发,构建“自然条件—水资源—社会经济—生态环境”的复合系统,提出干旱区水资源承载力概念,并运用改进
通常来说,混沌、分岔、分形和复杂性是非线性科学的主要内容,其研究结果应用于各个领域,尤其是在保密通信、系统安全、生态环境等方面发挥着重要的作用.本论文主要利用两种不同的方法研究了Chua系统的分岔和混沌动力学特征行为.第一种方法,我们首先利用中心流形定理显式地计算出Chua系统Bogdanov-Takens(BT)分岔对应的中心流形,进而求出该系统BT分岔的规范型和普适开折,最终得到该系统的分岔结
使用近红外光激发的稀土掺杂上转换纳米粒子(UCNPs)具有多色发射和较长的发光寿命、而且不容易受到人体内有机分子的自荧光干扰、组织穿透度深和无光漂白影响等优点,在生物传感、生物成像和医学治疗等生物医学领域有着重要应用。另一方面,pH值是表征生物系统的基本参数之一,对人体内环境中pH值的精确监测意义重大。本文采用了镱铒共掺氟钇钠上转换纳米材料(YEUNs)与罗丹明B(RHB)相结合的方式,构建了一种
西藏甲玛斑岩-矽卡岩型铜多金属矿床坐落于中国西藏自治区墨竹工卡县,距离西藏拉萨市68公里。甲玛矿床是由产于深部斑岩中的铜(钼)矿体、中部矽卡岩带中的铜多金属矿体、上部角岩中的铜钼矿体以及外围构造破碎带中的独立金矿体构成的“四位一体”的矿体组合形式。甲玛矿床矽卡岩带产于多底沟组(J_3d)灰岩、大理岩和林布宗组(K_1l)角岩、砂板岩之间,下伏的多底沟组(J_3d)为石榴子石的形成提供了主要的钙,而
基于DNA可编程碱基互补配对的性质,DNA纳米技术可以用来组装多种基于DNA结构的纳米材料,在生物检测和光电领域中具有广阔的应用前景。DNA纳米结构具有结构的精确可控性,可以通过特定位点精确修饰实现材料功能的拓展和特定的生物学应用。在过去的几十年中,研究人员发展了各种DNA纳米结构的设计规则和装配技术,用以提高DNA纳米结构的稳定性和复杂性,已被广泛应用于生物传感和肿瘤标志物检测中。肿瘤标志物的检
在中国共产党遭受第一次重大危难时,以毛泽东为代表的中国共产党人创造性地运用和发展马克思主义,提出了建党、建军和开辟革命道路的基本原则,在危难关头化危为机,为最终夺取
有机发光二极管(Organic Light-emitting Diode,OLED)被认为是最具竞争力的下一代平板显示器和固态光源技术,它们具有驱动电压低,发光效率高,响应速度快和超薄等优点,在平板显示和固体照明领域具有非常广阔的应用前景。合成高效稳定的蓝光材料仍然是OLED发展的重点之一。分子内电荷转移型材料在改善载流子传输,调控发光材料的能级和合成TADF材料中得到了广泛应用,所以基于此思路我
班公湖-怒江缝合带(BNSZ)广泛分布各种蛇纹石化超基性岩,而磁铁矿是蛇纹石化过程重要产物,研究超基性岩蛇纹石化程度及其影响因素,有助于岩石物化性质研究、生命起源探讨以及为磁铁矿勘探提供新的方向。昂吾地区位于班怒带中段,本文通过岩石学、岩相学、矿物学、矿物化学以及地球化学方法,对昂吾超基性岩进行岩石成因探讨和蛇纹石化过程及其影响因素研究,并且评估昂吾超基性岩磁铁矿赋矿潜力,可以为今后缝合带超基性岩
自旋-轨道耦合,即Spin-Orbit Coupling(SOC)是一种重要的物理机制。它起源于狄拉克方程的非相对论近似,广泛存在于空间反演不对称的固体材料中。SOC的强度主要由材料的内禀性质决定,很难在实验上通过人工的手段去调控。近些年来,实验上通过双光子拉曼技术在中性玻色-爱因斯坦凝聚体(BEC)中成功实现了可调控的人工SOC,这迅速引起了广大物理工作者的研究兴趣。研究表明超冷原子体系中存在S