基于朴素贝叶斯的piRNA识别问题研究

来源 :上海师范大学 | 被引量 : 1次 | 上传用户:qipiaolang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
piRNA的识别是目前生物信息学领域研究的热点问题之一。piRNA,又称Piwi-interacting RNA是一类重要的非编码小RNA,其长度大约是25到32个核苷酸,可以和Piwi蛋白结合形成piRNA复合物,并且与RNA沉默作有关。目前对于非编码RNA的研究工作主要分为两个方面,一是大规模非编码RNA的鉴定,主要借助于计算机,从已有的非编码RNA中提取特征信息,然后将特征信息进行全基因组尺度的识别;二是采用基因组学和实验方法研究非编码RNA的功能。本文以人类、小鼠、大鼠、果蝇等模式生物作为研究对象,通过搜集现有经实验验证的piRNA序列构建训练集合,分别构建了基于核苷酸组分和物理化学性质分类的多种特征表示模型,并采用朴素贝叶斯分类器结合5轮交叉检验的方法进行预测。最后对各种模型的预测结果进行了比较。结果表明k-mer频率结合核苷酸分类的特征组合模型得到了较好的预测性能,总准确度达到82%多,高于k-mer频率等的特征模型。   本文的主要内容安排如下:   第一章简述生物信息学的主要研究内容及本文的主要工作;   第二章概述非编码RNA的分类预测问题的背景和研究现状;   第三章介绍常见的特征构建和机器学习方法,包括k-mer法、核苷酸分类的特征表示方法、K-2阶马尔科夫模型等;   第四章介绍本文的主要工作——基于朴素贝叶斯的piRNA的识别问题研究;   第五章总结及未来展望。
其他文献
本文从Euler方程出发,考虑流体粘性可以提出Navier-Stokes方程,当研究磁场作用时提出了磁流体力学(magnetohydrodynamic,简称MHD)方程。磁流体力学系统描述粘性或无粘性,可压缩
A 2-D numerical model was developed to predict the shape of weld pool in stationary GTA welding of commercial pure aluminium,without considering fluid flow in t
混沌在日常生活中到处发生,它的规律展示了人们生活中的各种复杂联系,对它的研究有利于人类更好地认识自然,改造自然,最终使人类与自然和谐相处。混沌控制与同步的问题涉及人类社
设E(κ,(τ))是3维齐性黎曼流形,它的等距变换群维数是4,其中κ是底流形的曲率,(τ)是丛曲率,并且它们满足关系式κ-4(τ)2≠0.Berger球面是E(κ,(τ))的一个特殊情形,记为(S)3b(κ,(
介绍了现代包装设计理念、我国包装业的现状,阐述了嵌入版MCGS的功能、特点和体系结构,以及包装机密码监控系统利用嵌入版MCGS开发的过程和原理。 Introduced the concept o
随着编码理论的发展,有限环上的编码理论在理论研究和实际应用中具有越来越重要的研究意义.近十多年来,国内外的很多学者致力于有限环上的编码理论研究,成为编码领域的研究热点之
FMC的出现已经不可逆转,这在大多数运营商和设备商中都已达成共识.2004年7月,欧洲、亚洲、南美洲和北美洲6家大型电信运营商发起成立“固话--移动融合联盟”(FMCA),以推动移
本文主要研究随机微分系统的生存性与随机控制系统解的存在性,首先给出随机控制系统解的存在唯一性定理;其次通过构造Lyapunov函数给出并证明了随机微分系统的生存性与全局生
本文考虑两类大型稀疏非对称线性方程组的迭代解法,第一类是离散Navier-Stokes方程得到的广义鞍点问题,另一类是离散对流扩散反应方程得到的非对称正定线性方程组。  对于第
In the current work,to predict and improve the formability of deep drawing process for steel plate cold rolled commercial grade(SPCC) sheets,three parameters in