基于深度学习的RNA的编码能力研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:you0tmd1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物数据的注释一直是生物学家的一个具有挑战性的任务,其中对RNA序列编码能力的分类是十分关键的一步。随着大规模高通量测序的应用,产生的RNA序列数据量的急剧增加,对高效和精确区分编码RNA与非编码RNA的方法提出了更高的要求。目前使用的模型为浅层模型,基本上是手工寻找特征,然后输入到分类器进行分类。这些模型的缺陷是严重依赖手工提取的特征,特征的好坏决定模型最终的效果,而且扩展性极差。近年来深度学习是机器学习领域里一个新的研究方向,以其高效的特征抽取和强大的建模能力,在自然语言处理、计算机视觉等多个任务里面取得很好地效果,因而得到广泛的研究和应用。深度学习需要大量的数据,而RNA序列数据具备这个条件,因此可以将深度学习应用到RNA编码标注的任务中。  本文主要是以深度学习为基础,基于RNA序列的不同特性,分别设计了两个模型,其中SPPNet利用CNN对RNA序列的局部相关性建模,BrnnNet利用RNN对RNA序列的上下文依赖关系建模,这两个模型在Ensembl数据集上取得优异的效果。这两个模型能够自动抽取有效特征,不需要人工添加任何额外的特征,因而可以消除人类对RNA认识不全的局限性,还有可能发现一些新的模式,并利用这些模式来提高模型的准确性。此外,通过将改模型应用到不同物种之间序列的判别,来研究和验证不同物种之间的保守性。  本文的主要目的是将深度学习方法和生物信息数据处理分析进行结合,探索深度学习在生物数据上的有效性,并利用其提高RNA序列编码能力注释的效率和准确性。
其他文献
可扩展标记语言XML(Extensible Markup Language),已经成为互联网上数据发布和数据交换的事实标准,由于其强大的数据表达能力,XML完全可以在互联网和数据库之间扮演更加重要的角
我们为Webit2.0专门设计了一个实时多任务内核——WebitV,并在此基础上设计了新型的嵌入式Web服务器,由于系统资源有限,全部程序以汇编语言编写.WebitV是一个基于优先级的抢
P2P模式作为现有的客户/服务器模式的有益补充将在网络互联领域发挥日益重要的作用.如今流行的P2P技术五花八门、纷繁复杂,但是大多有很大局限性,往往一种技术只适用于某些应
近年来,随着通信网络的扩容和多媒体技术的迅速发展,基于无线网络的多媒体应用尤其是视频应用飞速发展,无线网络视频数据以指数形式迅速膨胀。同时,用户希望能够获得更优质的视频
我们简单介绍了网络系统的计算机仿真策略,重点讲述了怎么进行网络业务流量建模、仿真模型验证、仿真实验设计和仿真结果处理,以确保仿真结果的真实可靠.然后详细剖析了OPNET
近年来,随着科学研究的深入和产业竞争的加剧,各个领域越来越多的使用HPC应用来解决科研和生产中遇到的问题。随着计算的模型越来越大,要求的精度也越来越高,而且往往要求必须在
车间作业调度问题就是用一组机器加工一组工件,每个工件有若干个工序,把这些工序按照一定次序加工,在加工的过程中要满足问题特定的约束条件,并使加工完所有的工序后形成的最
现代信息社会的高速发展,城市人口的大量增加、车辆的日益增多,给城市的交通、环境的保护、社会治安的维护带来了诸多新的课题.如何合理调度公共交通和运输及出租车辆、快速
随着基于地理位置信息的服务技术的发展,与此相关的服务也在迅速发展,如基于位置信息的广告推送、外出旅游的路径导航、交通堵塞车辆管理等。这些服务普遍基于对未来位置的预测
数据挖掘是近年来数据库领域中出现的一个新兴研究热点,它是从大量数据中获取知识。进行数据挖掘的方法很多,粗集方法便是其中的主要方法之一。本文主要研究基于粗集属性约简的