基于深度学习的piRNA识别算法研究与实现

来源 :山东农业大学 | 被引量 : 0次 | 上传用户:xieshanxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非编码RNA(ncRNA)是一种从DNA中转录但不编码蛋白质的功能性RNA,其研究是当前生物医学研究中最令人兴奋的领域之一。根据转录组学和生物信息学的研究,有成千上万的ncRNA根据其功能和长度被分为不同的类别,包括tRNA、rRNA、miRNA、siRNA、piRNA和lncRNA等等。piRNA是不同物种中广泛存在且数量庞大的一类小非编码RNA。相比于miRNA和lncRNA的数据量有限且已经进行广泛研究,对piRNA的研究目前仍处在基础阶段,主要集中在转录和转录后水平,而很少有在翻译后水平piRNA的功能研究。准确从非编码RNA序列中识别出piRNA是开展其后续功能研究的重要保证。当前研究大多基于人工或者工具提取出上千个特征,然后结合一些机器学习方法进行分类识别,由于特征过多导致方法重复性不强,并且只能针对有相应特征的一小类piRNA使用,整体piRNA识别准确率或可靠性有待提高。因此,本文基于卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)的组合设计了一种深度学习网络模型,命名为DeepiRNA模型。该模型有效减少了人工对特征提取的干预,提高了识别piRNA的准确率和可靠性。实验准备了人类和小鼠两个物种的piRNA数据和非piRNA数据,经过数据分析和预处理后构建训练数据集,然后对两个物种数据分别进行模型训练。训练过程使用五折交叉验证的方式,分别保存人类和小鼠的最好的模型的参数和权重。实验表明,DeepiRNA模型在用于识别piRNA序列时具有较高的准确率和泛化能力。在人类的测试数据上,准确率达到92.86%,AUC值达到0.9805;在小鼠的测试数据上,准确率达到92.22%,AUC值达到0.9751,不论是准确率还是泛化能力,DeepiRNA都有较好的表现,表明该模型在piRNA识别上具有实际应用的潜力。并且,对2020年4月发表在《Nature》杂志上的一条埃及伊蚊piRNA数据进行识别预测分析,结果表明获得较高的预测值达到0.99以上,表明DeepiRNA模型在跨物种的piRNA识别上也具有潜在的优势。进一步用不同的模型对实验进行结果对比,选择支持向量机(SVM)、随机森林(RF)、XGBoost三种机器学习算法用相同的人类和小鼠的训练数据集进行训练。结果表明,无论是在准确率、F1-Score还是AUC值上,DeepiRNA在人类和小鼠测试数据结果上均优于其他三种方法,表明分类结果具有较高的准确率和可靠性。为了能够方便相关生物研究者在线使用,根据人类和小鼠两个物种保存的最好的模型,设计并开发了搭载DeepiRNA算法的在线网站系统。用户在线选择想要预测的物种,按照数据示例提交单条序列或者一个文件(多条序列)至服务器。系统会根据用户选择的物种匹配模型,根据提交的数据调用预测模型实现实时反馈预测结果,并展示在页面上。网站地址为:Http://www.deepbiology.cn/DeepiRNA。
其他文献
随着我国经济的飞速增长,人们的生活已达到小康水平,与此同时,青少年的身体健康状况也引起了人们的广泛关注。另外,二胎政策的开放,我国青少年人口随之急剧增加,青少年的身体
同时定位与地图构建(Simultaneous Localization And Mapping,SLAM)是一种优秀的空间信息分析处理技术,为移动机器人实现自主规划运动助益良多。近年来,其中的分支—视觉SLAM
微游动机器人的外形尺寸一般在亚微米到微米级别,可在液体环境中将多种驱动能源转化成受控的机械运动。随着微纳米技术的发展,微游动机器人已经逐渐应用于生化传递、生物传感
六维力传感器目前已广泛应用于工程实践,尤其是航天领域,在从事在轨修复等精密作业时,需要用灵巧手完成一些复杂的操作,在灵巧手上安装六维力传感器可以实现对接触点的精准力
随着GPU计算时代的到来,大量并行性的程序越来越多地使用GPU的并行计算能力来获得更高的性能和效率。如今,GPU并行计算使以前认为由于执行时间长而无法实现的程序成为可能。
在太阳系中,除了太阳、行星和其他天体,其质量的98%-99%都是来自于中性原子[1]。对于中性原子的研究,目前国外,已发射的多颗卫星上搭载了专门用于中性原子观测的仪器,主要用
随着现代社会的高速发展,人类对能源的需求越来越大。而空气压缩系统的耗电量占了全国工业总耗电很大的比重,空气压缩系统的节能控制研究对缓解能源危机,提高相关企业的经济
控制系统集成交付平台是现代航天控制系统研发和生产的重要工具,是推动航天自动控制研究所实现由纯科研型单位向科研生产并重型单位转型的重要依托。近年来,北京航天自动控制
荧光生物传感技术是一类对生物小分子敏感,能够将不同浓度目标物与其相应的分子识别元件之间产生的物理或化学作用转换为不同强度的荧光信号,并根据荧光信号的变化强度实现对
编队卫星系统具有“集群化”和“空间分布”的特征,使得该运行方式和单个卫星相比具有巨大技术优势。因此卫星编队飞行的模式自打上世纪九十年代产生以来,一直备受关注。近年