基于机器学习的microRNA预测

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:byddr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
microRNAs(miRNAs)是具有保守性的短核苷酸序列,在基因转录调节中扮演着重要的角色。将microRNA序列特征进行量化,采用机器学习技术发现新的microRNA是当前的研究热点。然而,许多现有的方法忽略了microRNA预测问题中存在的类不平衡问题。这可能会使模型过度学习多数类,降低分类性能。此外,这些方法通常对窄范围的物种是有效的。本文旨在建立一种物种间通用的microRNA预测模型,拓宽其可用物种范围并减少计算时间。本文结合集成学习的思想,采用五个SVM分类器,经采样、特征选择、分类器参数优化等三个步骤,建立了一种物种间通用的microRNA预测模型。首先,针对microRNA数据集的类不平衡问题,本文提出了基于序列熵的分层采样算法。该算法可在保持样本总体分布的基础上,采样生成正样本和负样本数量平衡的训练集。其次,针对训练集维度高,样本量大导致分类器训练速度慢的问题,本文提出了基于信噪比和相关性的特征选择算法,用于缩小训练集规模,以达到提高训练速度的目的。最后,本文提出了DS-GA算法,用于缩短SVM分类器参数的优化时间,达到减少过拟合的目的。本文在microRNA序列数据集和公共数据集上进行实验及对比实验,验证了本文提出算法的有效性。在microRNA数据集上,根据本文算法建立microRNA预测模型。在测试集上该模型与其他预测方法相比,具有更高的准确率。实验表明,本文构建通用的microRNA预测模型的思路是有意义的。该模型为进一步验证可能存在的microRNA提供了参考。
其他文献
益生菌是一类具有生物活性和对机体健康有益的微生物。乳酸菌是其中重要的一种。大量研究表明,乳酸菌等益生菌具有促进水产动物生长、降低饵料系数、提高宿主免疫力等作用,同时因其对环境无压力,遂逐渐成为抗生素的良好替代品之一。裂壶藻(Schizochytrium limacinum)因富含DHA等不饱和脂肪酸,能有效弥补水产动物因DHA的匮乏而导致的生长乏力,越来越受到人们的青睐。本文从野生驼背鲈(Crom
图像配准是计算机视觉和图像处理领域的重要研究问题,传统的配准方法主要基于整数阶微积分,对灰度均匀、弱边缘和弱纹理图像的配准效果不够理想,而分数阶微积分既可以增强图
绳索系统被广泛应用,尤其在应用于工业生产、国防建设中对精密载荷进行运输、组装等的工序,需要对载荷进行精确的水平或预置姿态调节以满足特定要求。由于绳索为柔性体及相互
我国证券市场自1990年成立至今发展速度惊人,但在股利分配方面却出现了许多不正常现象。为扭转这一局面,监管当局自2001年起陆续出台了一系列政策来引导上市公司的利润分配行
研究目的:通过搜集评估Bryan及Mobi-C人工颈椎间盘置换术后患者的各项临床随访指标,测量分析术后影像学检查资料,对相关数据进行比较研究,探讨两种假体在人工颈椎间盘置换术
进入21世纪以来,随着社会经济的发展、人口的增长、各类公共安全事件的频发,对公共场所人群行为的监控和管理已经成为智能视频监控中的热点问题。然而由于人群的遮挡、监控场
视觉目标跟踪是当前计算机视觉系统的重要组成部分。随着生活中各个领域对视觉跟踪系统需求的不断增加以及计算机科学技术的飞快发展,目标跟踪技术得到迅速发展的同时也面临
广西的晚泥盆世地层层序完整,含有丰富的牙形石、介形虫、有孔虫等微体化石,是研究晚泥盆世古生物的理想地区。本论文研究区位于南岭成矿带上扬子陆块湘中-桂中被动陆缘盆地
本文概述了表面增强拉曼散射(SERS)在微量生物分子研究中的应用,针对现有肥大细胞脱颗粒检测技术存在耗时长、半衰期短、比色效果差、检测技术要求高等不足,提出将SERS技术结
脑-机接口(Brain-Computer Interface,BCI)作为一种新型人-机交互技术,它可以在大脑与外部设备之间建立直接的信息交互通道,而无需通过外周神经和肌肉通道。BCI技术在医疗康