论文部分内容阅读
目的:MicroRNAs (miRNAs)是近年来发现的一类长度为~21nt的内源、单链的非编码小RNA,在生物体内发挥着重要的调控功能。到目前为止已有4000多个miRNA被陆续发现,它们广泛地存在于55个物种中。尽管有研究给出人、果蝇和线虫miRNA的数量估计,分别不超过255、110和120个,然而,有证据表明miRNA的数量远远超出这一估计,还有大量的miRNA有待发现。miRNA的发现主要有cDNA克隆测序和计算预测两种方法。早期miRNA的发现主要通过cDNA克隆测序方法。这种方法直接、可靠,然而该方法很难克隆出在不同时期表达或只在特定组织或细胞系中表达的miRNA,也很难捕获表达丰度较低的miRNA。近年来通过计算预测miRNA成为miRNA发现的另一条重要途径,其最大的优点是不受miRNA表达的时间和组织特异性以及表达水平的影响,可以弥补cDNA克隆测序方法的不足。基于机器学习方法预测miRNA是近两年出现的一类新的预测方法,这类方法的优点是可以找出与已知miRNA同源和非同源、保守和非保守的miRNA。机器学习方法的引入为大规模预测miRNA提供了新的思路,其主要思想是基于miRNA的前体能够折叠形成茎环结构该显著特征,然而,基因组中存在大量可折叠形成茎环结构的序列片段,因此,构建同时具有高敏感性和高特异性的分类器、以有效地从中识别出miRNA并降低假阳性率,成为基于机器学习方法预测miRNA的关键。方法:为构建miRNA的分类器,我们首先构建分类器所需的训练集及测试集。对于miRBase 9.0版本中的391条经实验验证的miRNA前体序列,我们随机选取其中300条作为阳性训练集(PTRAIN1),剩下91条作为阳性测试集(PTEST1)。另外,我们选择人3’UTR序列作为阴性数据的来源。3’UTR序列下载自UTRdb版本22,采用RNAfold折叠,满足以下三个条件的茎环结构片段作为阴性数据集:①总长度超过55个核苷酸;②至少18个配对碱基对;③环长度大于等于3个核苷酸。共计获得83,437条阴性茎环结构片段(pseudo pre-miRNA)。随机选取其中300条片段作为第一部分工作中的阴性训练集(NTRAIN1)以及91条片段作为阴性测试集(NTEST1)。此外,我们还采用了以下三个数据集作为独立阳性和阴性测试集:①miRBase 10.0版本中较9.0版本新增的134条经实验验证的人pre-miRNA为独立阳性测试集(PTEST2);②随机抽取1000条人19号染色体中折叠形成stem-loop结构且长度≥55nt、配对数≥18、环长度≥3的片段为独立阴性测试集(NTEST2);③为考察基于人源样本训练的分类器对其它物种pre-miRNA的分类性能,我们还对miRBase 9.0中除人以外的20种动物和病毒的pre-miRNA共计1353条序列(PTEST3)进行了测试。对于每条序列,我们均采用85个序列特征和43个结构特征进行描述,具体如下:(1)一联、二联和三联碱基组成,共计84个;(2)GC含量;(3)内部环和膨胀圈的个数,内部环/膨胀圈的个数,最大内部环/膨胀圈的大小,最小内部环/膨胀圈的大小,大小分别为1-10nt的内部环/膨胀圈的个数,大小≤5nt的内部环/膨胀圈的个数,大小为6-10nt的内部环/膨胀圈的个数,大小≥11nt的内部环/膨胀圈的个数,所有内部环/膨胀圈大小的总和,所有内部环和膨胀圈大小的总和,环的个数,最大环的大小,最小环的大小,配对数,最低自由能,序列长度,共计42个特征;(4)与1000条保持二联碱基成份的随机序列的最低自由能的随机检验p值。其中,42个结构特征是采用RNAfold折叠序列后在最低自由能结构中提取的,p值采用randfold程序计算。基于训练集PTRAIN1和NTRAIN1,我们利用机器学习方法构建分类器MiRscreen。为提高分类器的性能,我们采用GA搜索影响分类器性能的两个重要参数C和γ。为进一步提高分类器的泛化能力,同时提高分类器的稳定性,我们考虑应用SVM分类器集成来构建新的分类器,并将AB方法融入其中。我们对83437条阴性序列片段进行去冗余处理后余下73853条,其中55900条作为阴性训练集(NTRAIN2),其它16953条作为阴性测试集(NTEST3)。从NTRAIN2中随机抽取300例,与PTRAIN1共同构成一个训练集,如此反复有放回地随机抽取25次,得到25个训练集。而对于每个训练集,我们还将做多次尝试,分别从128个属性中随机抽取其中某一个子集来构建相应分类器。通过多次比较,最终确定选取50个属性构建更为稳健的分类器SVMensembler50。结果:一.分类器MiRscreen对训练集PTRAIN1及NTRAIN1的敏感性和特异性分别达到99.33%,100%,对测试集PTEST1及NTEST1的敏感性和特异性分别达到91.21% ,93.41%。对阳性独立测试集PTEST2及PTEST3的敏感性分别达到85.82%,88.10%,其中马雷克病病毒、猕猴淋巴隐病毒、EB病毒、猿猴病毒40、非洲爪蟾、狗、绵羊和猕猴共计8个物种的敏感性达到100%;对阴性独立测试集NTEST2的特异性达到85.50%。与其它六种同类方法相比,MiRscreen在敏感性和特异性方面均具有较好的性能,对独立性测试集的AUC值达到0.921,明显高于其它方法。二.分类器SVMensembler50对训练集PTRAIN1及NTRAIN2的敏感性和特异性分别达到96.51%,91.55%;对测试集PTEST1及NTEST3的敏感性和特异性分别达到敏感性和特异性分别达到88.13%和91.36%。对阳性独立测试集PTEST2及PTEST3的敏感性分别达到87.31%,91.50%;其中马雷克病病毒、人巨细胞病毒、猕猴淋巴隐病毒、EB病毒、猿猴病毒40、非洲爪蟾、狗、绵羊和猕猴共计9个物种的敏感性达到100%。对阴性独立测试集NTEST2的特异性达到88.90%。与MiRscreen和其它六种分类器相比,SVMensembler50在敏感性和特异性方面均具有最优的性能,对独立测试集的AUC值达到0.935,远高于MiRscreen和其它六种分类器。结论:本文我们基于机器学习方法,分别构建两个分类器MiRscreen和SVMensembler50来预测miRNA。对于第一个分类器MiRscreen,通过采用GA搜索影响SVM分类器性能的两个重要参数C和γ,我们将分类器对测试集PTEST1及NTEST1的分类精度提高到92.31%,较步长为1的网格搜索方法提高了近4%,较步长为2的网格搜索方法提高了近5%,且计算时间并没有显著增加。由此可见,通过GA搜索C和γ能够提高SVM分类器的性能。该结论将可以被广泛应用于其他与SVM方法相关分类问题中。为进一步提高分类器性能,通过利用SVM分类器集成以及采用AB方法提高集成分类器中各基分类器的差异,我们采用50个属性构建了集成分类器SVMensembler50,该方法有效地提高了分类器的泛化能力和稳健性,与其它同类方法相比具有更好的敏感性和特异性。