一种基于多特征融合的长非编码RNA预测模型

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:yaodmangrady
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物体内只有非常小的一部分基因组能够编码蛋白质,大多数转录组为不能直接编码蛋白质的非编码RNA(nc RNA),其中长度超过200个核苷酸的被定义为长非编码RNA(lnc RNA)。近年来,越来越多的科学研究发现,lnc RNA发挥着重要和广泛的生物学功能,维持着生物体生命活动的稳定和正常进行。Lnc RNA在生物体内特异性表达,其数量远远超过了已注释序列的数目,同时,随着新一代测序技术的进步,大量生物基因已被测序,提供了充足的lnc RNA候选,因此通过机器学习方法从RNA测序中识别和描述出新的lnc RNA具有重要的生物学意义。本文分别提取了两种RNA序列的序列特征、二级结构特征和功能特性三类特征,其中,序列特征包括k-mer特征、ORF特征和CG含量特征;二级结构特征为二级结构三元组性质;功能特性包括基于二核苷酸间物理化学性质的伪核苷酸特征和形成二级结构的折叠过程中的最小自由能特征。为了解决正负样本间不平衡问题,使用一种改进的K-means聚类方法选出代表序列,同时,网格搜索方法被用来对伪核苷酸特征中的可变参数问题进行最优参数的选择。为了去除所提取的RNA特征集合中的冗余特征,寻找与分类最为相关的特征集合,本文提出了一种基于最大相关最小冗余的集成特征选择方法。综合考虑信息增益、皮尔森相关系数、Relief算法和随机森林等特征选择方法的评价结果,作为特征与类别之间的最大相关性评价指标,特征与特征之间的最小冗余性指标则由皮尔森相关系数评价。支持向量机模型在解决非线性问题上具有显著的优点,最后基于选择出的最优特征集合构建支持向量机分类模型。在拟南芥序列数据集上的实验结果显示,本文所提出的集成特征选择方法能够选择出的较少的特征,构建具有良好的分类性能的分类模型,且与现阶段使用较多的CPC、CPAT和Lncrna-pred等方法相比更有效。
其他文献
毛竹(Phyllostachys edulis)和日本柳杉(Cryptomeria japonica)均为庐山自然保护区内典型植被,近年毛竹凭借其独特的生长特性,逐渐扩张进入周边的常绿、针叶或针阔混交森林群
目的:分析兰州市中老年女性的不同生育经历和不同糖代谢状况,探讨女性经产数与不同糖代谢状况的相关性。方法:本流行病学研究采用整群随机抽样方法,利用“REACTION研究”甘肃
随着全球工业化的快速发展,所带来的生态和社会问题日益严重,经济活动给环境带来的负面影响日趋加剧。企业在生态保护方面所做什么样的工作,怎样建立起生态保护与经济利益的
交替传译具有现场性的特点,译员需要边思考便翻译,不可避免会出现口误。交替传译中的自我修正是正常现象。本文以2017中国论坛主旨演讲模拟会议朝汉交传为案例,讨论了朝汉交
主要组织相容性复合体(major histocompatibility complex,MHC)是介导机体免疫反应,移植排斥反应和免疫调控的一组联系密切,呈高度多态的基因群。在生物体防御病原微生物入侵
在中国,随着人口数量的增加,传统的饲养模式已经无法满足人们的对畜产品日益增长的需求,因此畜牧业的生产经营者转向效率更高、占地面积更小、更便于统一管理的集约化养殖。
随着我国经济快速发展,高铁、大跨桥梁、超高层建筑等不断涌现,工程建设规模逐渐扩大,因此对岩土参数的准确性提出了更高的要求。然而,岩土本身的复杂多变性给岩土力学参数的
为了研究秸秆还田和氮素水平对小麦生长和土壤脲酶及产量的影响,寻求不同秸秆还田量下小麦高产与氮肥最佳结合规律。本试验于2016-2017年,在河南省鹤壁市农科院试验基地进行,
随着人们生活品质的提高,生活中涉及到各种各样的用电设备,这些用电设备一方面要求电力的持续供应及合理调度,另一方面也对电能质量提出了新的要求。本课题设计了一种电能质
钢棒屈曲约束支撑,是一种既有中心钢支撑又具备耗能功能的结构构件,在众多类型的屈曲约束支撑中,以钢棒为芯的钢管混凝土约束型屈曲约束支撑研究甚少。借鉴以往传统形式的防