动植物长非编码RNA的预测算法研究

来源 :南京林业大学 | 被引量 : 0次 | 上传用户:Richie911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,新一代测序不断应用于lnc RNA转录本的鉴定与注释,成千上万的生物大数据席卷而来,越来越多的未知领域不断被揭示。然而,lnc RNA与m RNA的结构极其相似,且二者都具有生物学功能,这使得很难从众多转录本中识别lnc RNA。许多验证转录组的实验方法需要大量的时间和资源,各种传统的鉴定实验方法大多是耗时且昂贵的。大量研究表明,通过利用前沿的科学计算方法来识别这些转录序列是切实可行的。本文基于RNA转录本,研究动植物长非编码RNA的预测算法研究,针对现有识别工具及算法所缺乏的扩展性、普适性、容错能力和计算效率等问题,制定lnc RNA鉴定的高效策略,分别设计并实现了基于序列比对、多特征分类、深度学习的lnc RNA预测算法。所做的具体工作归纳如下:(1)设计并实现了基于序列比对的lnc RNA预测算法(Pre Lnc-Seq)。针对传统序列比对算法的优势与劣势,分别从参考数据集聚类去冗余和近似比的序列比对算法,来降低序列比对的时间和空间消耗,并且保证一定的准确率。通过聚类提取同一物种中高置信度的转录本序列作为参考数据集,使用CD-HIT降低算法的时间复杂度和空间复杂度,进而将待预测序列与其中的序列进行相似性比对;其次,设定不同的E值,使用近似比的序列比对算法blast,进行比对;然后,选取最佳的CD-HIT参数及E值,确定最终的lnc RNA预测算法。该算法在一定程度上提高了传统序列比对的预测方法效率。(2)设计并实现了一种高精确度的多特征分类的lnc RNA预测算法(Pre Lnc)。通过分析序列比算法在预测效果和计算时间上的局限性,从机器学习、特征工程的角度来设计预测算法Pre Lnc。首先,使用错误发现率(False Discovery Rate,FDR)调整的P值和Z值分别为动物和植物筛选出核苷酸特征子集,进而与11个重要特征形成候选特征集合;其次,通过皮尔森相关系数去除线性相关的冗余项,得到特征排名列表;使用增量特征选择方法,将F-measure值作为增量,联用逻辑回归、支持向量机、随机森林等多种方法进行比对,最终建立适用于每个物种的平衡随机森林预测模型,并归纳分析生物学相关的结论。与其他工具相比,Pre Lnc可以直接从转录本中计算特征,并且具有一定的可扩展性,通用性和容错性。Pre Lnc具有良好的预测性能,并支持对多种物种的lnc RNA进行预测。(3)设计并实现了深度学习的lnc RNA预测算法(Pre Lnc-LSTM)。将热门的深度学习长短期记忆网络(Long Short-Term Memory,LSTM)网络应用于lnc RNA转录本的预测,设计并实现了基于深度学习的lnc RNA预测算法。首先,对序列进行预处理,进行批量填充补齐、One-Hot编码处理;其次,总结分析多特征分类的预测算法中具有显著分类能力的特征,使用卡方检验来分析CDS百分比(Coding sequence)、序列长度的显著性,并与One-Hot序列编码进行融合;最后,使用keras搭建模型。从预测结果来看,LSTM网络的预测识别能力低于多特征分类的预测模型,LSTM网络对训练数据的依赖性较强。但是,Pre Lnc-LSTM预测算法对于其他物种进行预测的结果来看,更具有一定的适用性优势。
其他文献
纤维素是一种可降解的高分子材料,近年来广泛地被用于研究制作包装薄膜。纤维素薄膜具有优秀的透明性和柔韧性,是一种很有前途的绿色可降解包装材料。通过表面交联的方法改性纤维素膜,并对改性纤维素膜的结构和性能进行表征。改性后的纤维素膜具有优秀的抗紫外线能力,紫外透过率接近零;良好的力学性能,最大拉伸强度为67.8 MPa;优秀的水蒸气阻隔性,水蒸气透过率为56.69 g/(day·m2)。植物精油中含有的
城镇化、工业化的飞速发展使我国建筑业出现了劳动力与高素质建筑工人短缺的现象。与传统现浇建筑相比,装配式建筑具有绿色节能、安全环保、解决产能过剩等优点,生产工厂化、施工装配化的建造方式已然成为我国建筑业发展的大势所趋。机械化是装配式建筑施工的特征之一,起重机械是装配式建筑施工最为重要的设备,科学有效的起重机选型与布置优化对提高装配式建筑施工生产效率、施工安全性、节约生产成本具有重要意义。本文基于决策
马尾松是我国大宗商品材及良好的纤维工业原料,生长快,材质优,也是主要的采脂树种,其以萜类化合物为主要成分且有特定气味的松脂可提取松节油和松香,它们都是重要的化工原料,松脂还具抗生物逆境的作用。本文对萜类化合物合成途径中GPPS基因及其启动子的功能进行初步研究,旨在为高产脂马尾松良种选育和分子育种提供帮助。本文以马尾松为试材,提取其总RNA,利用同源克隆技术获得马尾松GPPS基因的ORF,对其进行生
冰雪的附着和积聚可能会导致飞机、通信网络、太阳能电池板和风力发电机出现严重问题。近几十年来,为了抑制冰的形成或降低冰附着力,人们进行了大量的研究。之前超疏水表面由于其特殊的浸润性一直是防冰研究的热门方向,但是,这种表面在高湿低温的环境里很容易失去超疏水特性。因此,人们逐渐将目光投入到另外一种具有防覆冰潜力的表面-润滑油注入多孔表面(超滑表面)。本文首先通过喷涂的方法制备出超疏水性的TiO2多孔纳米
森林蓄积量是森林资源调查的主要因子,可用于衡量区域森林资源的丰富和健康程度,反映区域营林水平和森林固碳能力,在森林生态系统功能评价中扮演重要角色,同时森林蓄积量的精准估测对森林可持续经营管理具有重要作用。近年来,科学技术不断发展,遥感数据已成为估测森林蓄积量的重要工具。本论文结合2007年林地落界调查小班矢量数据、2007年紫金山国家森林公园30×30m样地数据、2007年机载Optech ALT
高效、精确、定量评估森林结构的动态变化对于森林资源监测、可持续经营与管理以及理解森林碳循环和干扰等有重要意义。机载激光雷达(Light Detection And Ranging,Li DAR)能够穿透森林冠层,通过发射激光脉冲并记录脉冲返回信号,以点云的形式获得高精度的森林结构信息及林下地形。近年来,基于无人机(UAV)的航空数字摄影测量技术迅速发展,在生成正射影像的同时,也可通过运动恢复结构算
日常生活、饮食都离不开厨房,因而,分析、思考和探讨厨房家具的设计尤为重要。近年来,随着文化理念的进步,单身青年群体居住行为也随之发生了很大的改变,厨房从烹饪场地逐渐延伸到集休闲、娱乐、情感沟通于一体的场所,许多单身公寓、小户型住宅的厨房家具设计依然维持着传统的设计理念,并不符合单身青年群体的使用需求。厨房在很大程度上反应了人的生活方式和文化的特征,因此从单身青年群体的生活形态出发进行专项研究,将用
随着公路发展速度不断加快,新建公路隧道的规模日益变大。由于公路隧道具有纵向狭长、内部封闭、通风受限的空间特点。当发生火灾后,烟气的快速扩散缩小了被困者的可视范围,降低其对距离的感知,对身处火灾环境的疏散人群产生影响,使其产生恐慌心理和从众行为。因此,研究火灾环境下的公路隧道人群疏散,确定对应的保障措施,对于提高疏散效率、减少人员伤亡和保障道路参与者的安全具有重要意义。本文从生理和心理的角度,建立虚
微生物诱导碳酸钙沉淀(MICP)可以有效地提高粉土的力学性能,但在实际应用中,仍存在很多制约工程应用的因素。微生物加固粉土地基时,采用注浆的方式均匀性差;从砂土到粉土再到黏土,采用搅拌的方式进行微生物固化的效果不理想,因为MICP反应速率快,在搅拌的过程中破坏了大量已形成的粒间胶结。减缓MICP的反应速率,在搅拌完成后再形成粒间胶结,能够改善MICP的固土效果。因此,反应速率是制约MICP在实际工
地面制动力的精确模拟是电动汽车防抱死制动系统与再生制动集成控制试验平台进行试验研究的重要基础。本文通过理论分析与试验研究相结合的方法,重点研究了在试验平台上实现地面制动力模拟控制的相关理论、方法和应用问题,研究成果具有实际工程应用价值。通过对原有试验平台结构、工作过程,以及实车制动时车轮受力与轮胎-路面附着特性的分析,指出现有试验平台存在台架模拟制动力不能反映轮胎路面附着特性以及模拟路况单一两方面