基于序列的非编码RNA和蛋白质预测及其关联研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:Dec-87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着功能基因组学和表观遗传学的发展,非编码RNA(ncRNA)在生命活动中起的重要作用被越来越多的发掘出来,使得ncRNA迅速成为了科学家们研究的重点。高通量测序的迅猛发展,生物分子序列数据得到飞速累积,从中挖掘ncRNA序列中蕴含的重要生命细胞信息变得越来越迫切。研究表明,ncRNA通常是通过与蛋白质相互作用进而参与细胞活动的。因此,基于序列的非编码RNA和蛋白质预测分析成为计算生物领域关注的焦点问题。本课题以序列特征信息提取方法和预测模型的构建为研究主线,对ncRNA和蛋白质序列预测问题的几个具体问题开展研究工作,包括RNA二级结构序列图形表示、DNA结合蛋白预测、microRNA前体(pre-miRNA)预测以及长非编码RNA(lncRNA)与蛋白质关联预测。本课题主要开展了以下几项研究内容:(1)基于RNA二级结构序列的3D图形表示。首先,基于RNA二级结构序列中碱基的频率以及碱基的物理和化学特性,提出了一种RNA二级结构的3D图形表示方法;进而提出了一种基于距离计算的滑动窗口RNA序列相似性分析方法,并将该序列相似性分析方法应用于植物pre-miRNA的预测当中,构建了三组基准数据集,并与现有几种常用的优秀预测算法相比,本文提出的方法具有很好的预测性能和效率。另外,同很多机器学习方法相比,本文方法操作简单,不需要训练参数,且更为直观。(2)基于进化信息的DNA结合蛋白预测。位置特异性矩阵(PSSM)存储了蛋白质序列的进化信息,本文提出了一种基于PSSM的特征提取方法,命名为KPSSM-Composition,该特征提取方法能有效捕获给定序列进化过程中20个氨基酸残基的信息及序列的局部特征信息。首先,提取序列的K-PSSM-Composition特征信息,并使用递归特征消除方法来优化提取的特征向量;然后,采用支持向量机(SVM)来训练预测模型以预测DNA结合蛋白。在两个标准基准数据集上测试评估本文提出的预测模型与其他预测模型的性能。实验结果显示,本文所提出的方法在预测DNA结合蛋白中较好的预测性能和有效性。(3)基于互信息的pre-miRNA预测。本文提出了一种新的基于互信息的premiRNA序列和二级结构的特征提取算法,该方法能够捕捉pre-miRNA序列碱基之间及二级结构的局部特征之间的互信息关系。此外,所提出的特征向量的维数仅55维,小于大多数流行方法的特征向量维数,这使得本文方法在计算上比竞争对手更有效。最后,使用本文所提取的特征信息来训练支持向量机模型以预测premiRNA并将结果与其他优秀算法进行比较,分别在平衡和不平衡数据集及多物种数据集上进行实验测试,实验结果显示,本文方法具有良好的预测性能。(4)基于多信息融合的lncRNA与蛋白质关联预测。本文提出了一种基于多信息融合的lncRNA蛋白质预测计算模型。首先,提出了用于表示lncRNA和蛋白质相互作用的网络拓扑特性信息特征方法;然后,再分别提取基于蛋白质序列的基本组成特征信息和进化信息,以及提取lncRNA序列特征信息和lncRNA表达谱信息;最后,融合上述特征信息,并采用递归特征消除算法将优化后的特征向量输入至SVM模型。实验结果显示,本文所提出方法在lncRNA蛋白质关联预测中具有很好的有效性和精确度。
其他文献
高速发展的现代科技对天线的小型化和高性能的要求逐步提高,在这样的背景下,微带天线凭借其工作频段较高、物理尺寸小、易集成的优点获得了越来越多的关注。LTCC(低温共烧陶瓷)材料凭借其高介电常数、低介质损耗、设计灵活的优点,取代传统的材料,成为了微带天线介质基板材料的新兴选择,LTCC材料的优异性能可以有效地进一步提升微带天线性能,实现小型化,而其多层结构也有利于使用天线封装技术(Ai P)在天线下方
随着互联网的发展,推荐算法在人们的生活中起到越来越重要的作用,从海量数据中挖掘用户的兴趣与需求,对用户进行个性化推荐成为一个重要的研究课题。研究者们通过深入研究提出了多种多样的推荐算法,主要包括协同过滤、基于内容的推荐和混合推荐算法,其中综合考虑评分和项目内容的混合推荐算法可以缓解单一考虑评分或内容的推荐算法存在局限性的问题,大数据的思维也使研究者们更加致力于使用多维度数据对用户兴趣细致表示,形成
首先,在创新创业背景下,新创企业作为我国企业的重要组成部分之一,其科技创新能力与绩效水平是我国企业“双创”水平的重要体现。十九大报告明确指出,政府需要促进资源优化配
每个企业都有不同的发展阶段,在不同的阶段,企业要根据实际情况来使用与其发展战略相匹配的组织结构和管理手段;在不同的阶段,企业也要随着自身外部环境的变化来调整目标以实现可持续发展。科学且有效的组织结构对企业来说具有重要的意义,它可以将各级管理人员的职责明确化、制度化。建立科学且有效的组织结构对于企业内部秩序的建立具有重要的积极作用,同时通常被认为是企业实现可持续发展的必不可少的重要工作及任务。随着5
抗生素广泛用于畜牧业、水产养殖业和医疗,目前对环境残留问题高度关注。由于具有保护绿色环境、单纯的反应条件、低能源消耗等优点,光催化技术在水中含有的抗生素应用领域备
科学与技术是影响科技发展的两个重要因素,二者共同推动科技的发展与进步,科学和技术的关系一直被认为是科技发展中最复杂的关系之一。目前,我国科学与技术的互动态势有待加强,剖析科学与技术内在关联、识别科学与技术互动模式,在推动科技成果转化、揭示科技发展方向方面有重要作用。现有研究基于科学-技术关联分析多停留在统计分析层面,从文献内部挖掘科学-技术之间知识关联与互动规律的相关研究较少。为此,本文以节能领域
中国特色社会主义已经进入了新时代。新时代,中华文化的传承与发展更加多元化。与此同时,世界领域的文化竞争暗流汹涌,国与国之间的文化交锋更多的体现在意识形态之间的较量。我国正面临着西方国家意识形态的入侵,经受着西方价值观对社会主义核心价值观的冲击,我们要坚决维护文化领域的安全,防止资本主义价值观的渗透。抵御西方意识形态入侵的最佳手段,就是树立起全民族的文化自信,增强民族自信心和感召力。大学生是抵御意识
亚波长结构器件已经越来越受到研究人员的广泛关注,因为当器件的尺寸为亚波长量级时,就会出现很多常规器件没有的新特性和新现象。太赫兹光谱因为其独特的特点,为大多数器件提供了一种高效、快捷的光谱分析方法,适用于多种传感领域,如生化识别、生产监控和环境监测等方面。利用亚波长结构的特性和太赫兹光谱的特点,可以设计出新型的亚波长传感器件。但是现在大多数亚波长传感器件还是不能很好地满足人们的需求,还需进一步的对
随着人工智能技术的发展以及电子化古籍文本数量的不断增加,古汉语信息处理逐渐成为一个重要的研究领域。中国古籍资源承载着璀璨的中华文明,蕴含着丰富的语言文化知识,对其进行整理、加工和研究是一项必不可少的工作。然而古籍文本体量巨大,仅通过资深学者人工的方式进行处理和分析费时费力。而利用先进技术对海量古籍文本进行自动分析,不仅可以大大减轻人工标注的负担,而且能够进一步挖掘出以往通过肉眼难以发现的文本特征和
Cu2+在我们的生活生产和生命活动中起着重要作用,同时生物体和环境中的Cu2+过载也会导致严重的影响和危害,因此对Cu2+进行检测具有重要意义。荧光探针检测方法因具有设备简单、操作方便、快速反应和灵敏度高等特点而逐渐成为Cu2+检测的重要手段。尽管已经有很多性能优良的Cu2+荧光探针被设计出来,但仍然存在一些不足,比如合成步骤繁琐、结构复杂、水溶性不足等。茚三酮具有刚性平面、水溶性好、易与氨基化合