基于机器学习的microRNA预测方法研究

来源 :中国人民解放军军事科学院 | 被引量 : 1次 | 上传用户:cracezhangxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:MicroRNAs (miRNAs)是近年来发现的一类长度为~21nt的内源、单链的非编码小RNA,在生物体内发挥着重要的调控功能。到目前为止已有4000多个miRNA被陆续发现,它们广泛地存在于55个物种中。尽管有研究给出人、果蝇和线虫miRNA的数量估计,分别不超过255、110和120个,然而,有证据表明miRNA的数量远远超出这一估计,还有大量的miRNA有待发现。miRNA的发现主要有cDNA克隆测序和计算预测两种方法。早期miRNA的发现主要通过cDNA克隆测序方法。这种方法直接、可靠,然而该方法很难克隆出在不同时期表达或只在特定组织或细胞系中表达的miRNA,也很难捕获表达丰度较低的miRNA。近年来通过计算预测miRNA成为miRNA发现的另一条重要途径,其最大的优点是不受miRNA表达的时间和组织特异性以及表达水平的影响,可以弥补cDNA克隆测序方法的不足。基于机器学习方法预测miRNA是近两年出现的一类新的预测方法,这类方法的优点是可以找出与已知miRNA同源和非同源、保守和非保守的miRNA。机器学习方法的引入为大规模预测miRNA提供了新的思路,其主要思想是基于miRNA的前体能够折叠形成茎环结构该显著特征,然而,基因组中存在大量可折叠形成茎环结构的序列片段,因此,构建同时具有高敏感性和高特异性的分类器、以有效地从中识别出miRNA并降低假阳性率,成为基于机器学习方法预测miRNA的关键。方法:为构建miRNA的分类器,我们首先构建分类器所需的训练集及测试集。对于miRBase 9.0版本中的391条经实验验证的miRNA前体序列,我们随机选取其中300条作为阳性训练集(PTRAIN1),剩下91条作为阳性测试集(PTEST1)。另外,我们选择人3’UTR序列作为阴性数据的来源。3’UTR序列下载自UTRdb版本22,采用RNAfold折叠,满足以下三个条件的茎环结构片段作为阴性数据集:①总长度超过55个核苷酸;②至少18个配对碱基对;③环长度大于等于3个核苷酸。共计获得83,437条阴性茎环结构片段(pseudo pre-miRNA)。随机选取其中300条片段作为第一部分工作中的阴性训练集(NTRAIN1)以及91条片段作为阴性测试集(NTEST1)。此外,我们还采用了以下三个数据集作为独立阳性和阴性测试集:①miRBase 10.0版本中较9.0版本新增的134条经实验验证的人pre-miRNA为独立阳性测试集(PTEST2);②随机抽取1000条人19号染色体中折叠形成stem-loop结构且长度≥55nt、配对数≥18、环长度≥3的片段为独立阴性测试集(NTEST2);③为考察基于人源样本训练的分类器对其它物种pre-miRNA的分类性能,我们还对miRBase 9.0中除人以外的20种动物和病毒的pre-miRNA共计1353条序列(PTEST3)进行了测试。对于每条序列,我们均采用85个序列特征和43个结构特征进行描述,具体如下:(1)一联、二联和三联碱基组成,共计84个;(2)GC含量;(3)内部环和膨胀圈的个数,内部环/膨胀圈的个数,最大内部环/膨胀圈的大小,最小内部环/膨胀圈的大小,大小分别为1-10nt的内部环/膨胀圈的个数,大小≤5nt的内部环/膨胀圈的个数,大小为6-10nt的内部环/膨胀圈的个数,大小≥11nt的内部环/膨胀圈的个数,所有内部环/膨胀圈大小的总和,所有内部环和膨胀圈大小的总和,环的个数,最大环的大小,最小环的大小,配对数,最低自由能,序列长度,共计42个特征;(4)与1000条保持二联碱基成份的随机序列的最低自由能的随机检验p值。其中,42个结构特征是采用RNAfold折叠序列后在最低自由能结构中提取的,p值采用randfold程序计算。基于训练集PTRAIN1和NTRAIN1,我们利用机器学习方法构建分类器MiRscreen。为提高分类器的性能,我们采用GA搜索影响分类器性能的两个重要参数C和γ。为进一步提高分类器的泛化能力,同时提高分类器的稳定性,我们考虑应用SVM分类器集成来构建新的分类器,并将AB方法融入其中。我们对83437条阴性序列片段进行去冗余处理后余下73853条,其中55900条作为阴性训练集(NTRAIN2),其它16953条作为阴性测试集(NTEST3)。从NTRAIN2中随机抽取300例,与PTRAIN1共同构成一个训练集,如此反复有放回地随机抽取25次,得到25个训练集。而对于每个训练集,我们还将做多次尝试,分别从128个属性中随机抽取其中某一个子集来构建相应分类器。通过多次比较,最终确定选取50个属性构建更为稳健的分类器SVMensembler50。结果:一.分类器MiRscreen对训练集PTRAIN1及NTRAIN1的敏感性和特异性分别达到99.33%,100%,对测试集PTEST1及NTEST1的敏感性和特异性分别达到91.21% ,93.41%。对阳性独立测试集PTEST2及PTEST3的敏感性分别达到85.82%,88.10%,其中马雷克病病毒、猕猴淋巴隐病毒、EB病毒、猿猴病毒40、非洲爪蟾、狗、绵羊和猕猴共计8个物种的敏感性达到100%;对阴性独立测试集NTEST2的特异性达到85.50%。与其它六种同类方法相比,MiRscreen在敏感性和特异性方面均具有较好的性能,对独立性测试集的AUC值达到0.921,明显高于其它方法。二.分类器SVMensembler50对训练集PTRAIN1及NTRAIN2的敏感性和特异性分别达到96.51%,91.55%;对测试集PTEST1及NTEST3的敏感性和特异性分别达到敏感性和特异性分别达到88.13%和91.36%。对阳性独立测试集PTEST2及PTEST3的敏感性分别达到87.31%,91.50%;其中马雷克病病毒、人巨细胞病毒、猕猴淋巴隐病毒、EB病毒、猿猴病毒40、非洲爪蟾、狗、绵羊和猕猴共计9个物种的敏感性达到100%。对阴性独立测试集NTEST2的特异性达到88.90%。与MiRscreen和其它六种分类器相比,SVMensembler50在敏感性和特异性方面均具有最优的性能,对独立测试集的AUC值达到0.935,远高于MiRscreen和其它六种分类器。结论:本文我们基于机器学习方法,分别构建两个分类器MiRscreen和SVMensembler50来预测miRNA。对于第一个分类器MiRscreen,通过采用GA搜索影响SVM分类器性能的两个重要参数C和γ,我们将分类器对测试集PTEST1及NTEST1的分类精度提高到92.31%,较步长为1的网格搜索方法提高了近4%,较步长为2的网格搜索方法提高了近5%,且计算时间并没有显著增加。由此可见,通过GA搜索C和γ能够提高SVM分类器的性能。该结论将可以被广泛应用于其他与SVM方法相关分类问题中。为进一步提高分类器性能,通过利用SVM分类器集成以及采用AB方法提高集成分类器中各基分类器的差异,我们采用50个属性构建了集成分类器SVMensembler50,该方法有效地提高了分类器的泛化能力和稳健性,与其它同类方法相比具有更好的敏感性和特异性。
其他文献
随着后基因组时代生命科学研究的不断深入,认为不同物种的基因组规模和蛋白编码基因数量决定了物种复杂度和多样性的传统认识不断被挑战,基因调控的重要性不断凸现,而近几年大量全新的行使调控功能的非编码RNA的突破性发现使得RNA层次调控在整体调控中的重要性也与日俱增。本论文选取一种重要的转录后调控事件—RNA编辑为研究对象,围绕新编辑位点识别和已知编辑位点的组织特异性分析进行生物信息学研究。RNA编辑是发
实验研究表明,如果每一个产生蒸汽的通道中的环流强度不低于某个定值,就可以避免碳氢化合物在氧蒸发器换热面上累积到危险量。我们研究了管式和板翅式蒸发器中的自然环流,也研究了各种通道中氧一氮两相流的实际蒸汽含量和摩擦阻力。依据所获得的实验数据,提出了计算管式和板翅式氧蒸发器中环流的步骤。所进行的研究使我们能够确定避免碳氢化合物累积到危险量的产汽通道的操作条件,而这对空分装置的氧蒸发器的设计和维护是很重要
期刊
利用核酸的高级结构自组装寻找新型材料,如纳米材料和分子机器,是开发核酸新功能的一个重要途径。它的化学惰性成就它作为自组装材料的优势,另一方面,也使其功能开发受到限制。基于此,我们提出在不影响其自组装能力的前提下,利用功能基修饰核酸单元,改善其化学活性,获得具有特定功能的高级结构。这一基于核酸高级结构自组装的新功能研究既可用于开发新功能材料,还可用于研究生物分子的功能及其相互作用。我们以功能基修饰作
肿瘤血管靶向治疗的策略由来已久,它通过抑制肿瘤的新生血管生成来阻断肿瘤组织养分的供给,达到抑制肿瘤的生长的目的。这种治疗方案具有毒副作用小、不会产生抗药性、广谱性等优点。整合素家族是一类细胞粘附分子,整合素αvβ3在肿瘤血管发生和肿瘤的迁移中发挥重要的作用。整合素的单克隆抗体可以通过竞争性占据受体和配体结合的部位,阻碍整合素和配体的结合,抑制整合素发挥促肿瘤血管生成和肿瘤扩散的作用。组织因子是体内
防疫期间,"停课不停教、停课不停学"给全国高校的教育教学带来了一定的挑战。笔者基于某高校线上教学质量报告及网课平台的数据统计,以及疫情期间线上教学平台的使用、教师教学情况、学生学习状况、教学管理等方面数据的分析发现,虽然线上教学给教师和学生带来了全新体验,但同时也暴露出缺乏形式新颖的教学设计、学生自我管理难以把控等问题。后疫情时代高校还将面临教育理念、教学平台、教学方式等的全新变革。本文针对高校线
在素质教育的推进下,科学作为小学素质教育中一门关键的学科,为了保证小学科学课堂的教学效果,促进学生科学素养的提升,教师要改变对于科学这门学科的教学观念和教学模式,将理论与实验进行结合。实验教学作为小学科学课堂中的重要组成部分,通过实验教学能够让学生的创新思维和科学素养得到提升,深化学生对于科学知识的理解。为了保证实验教学的效果,教师可以应用趣味实验来丰富教学内容。基于此,本文针对小学科学课堂趣味实
雌激素受体(estrogen receptor, ER)是核受体超级家族成员之一,主要调节与雌激素相关的基因转录,在乳腺癌的发生发展过程中起着重要作用。目前认为,ER是乳腺癌治疗的靶标和预后的指标之一。ER包括两种亚型:ERα和ERβ,二者都由A、B、C、D、E和F六个结构域组成,含两个转录激活区,即AF1和AF2。AF1具有雌激素不依赖的转录激活功能,位于A/B区;AF2具有雌激素依赖的转录激活
本文在文献[1]的基础上,引入工程辐射势的概念,建立了一个一般情况下辐射传热的二阶微分方程的数学模型。该方程具有一般传输方程的特点,使得工业过程中辐射传热的处理与传导、对流问题的处理在方法上相一致。
RNA编辑(RNA editing)是在初始转录本上插入、’删除或替换单个或多个核苷酸从而改变原遗传信息的过程,是一种重要的转录后调控事件。目前两种碱基替换类型的RNA编辑研究较多,分别是广泛存在于真核高等生物中的A-to-IRNA编辑事件与广泛存在于高等植物线粒体中的C-to-U RNA编辑事件。近几年,哺乳动物体内的A-to-I RNA编辑现象引起广大科学工作者的关注。它是指ADAR (ade
端粒的生物学功能主要是保护染色体末端,避免核酸酶对染色体末端的降解,防止染色体之间发生融合和重排,在维持基因组结构的完整性和稳定上起重要作用。端粒酶由端粒酶逆转录酶(Telomerase Reverse Transcriptase, TERT)和端粒酶RNA (Telomerase RNA component , TR或TER)模板组成的具有特殊逆转录活性的核糖核蛋白复合物。它以自身RNA为模板通