论文部分内容阅读
随着新一代测序技术的发展及公共数据库的建立,研究者们能够快速地获取海量小RNA测序数据,那么该技术能否为人类基因组学研究带来新突破,关键在于研究者们如何有效地处理和分析这些数据,一些生物信息学方法与软件也应运而生。然而,大部分测序研究由于样本较少而只是单纯的统计描述,其中的一些统计分析方法也存在诸多的局限性。为此,本研究通过计算机模拟,从统计学角度,系统地评价了四种差异表达算法在小RNA测序数据分析中的统计学性质和应用效果;同时结合TCGA公共数据库,从实际应用的角度,基于miRNA/isomiR表达谱探讨了小RNA测序数据的统计分析策略和方法。 第一部分:基于负二项分布和实际参数设计模拟试验,考察四种特征选择算法的一类错误和检验效能,主要结论如下:⑴baySeq、DESeq和permutation检验均能控制一类错误,其中baySeq控制过于严格,而edgeR算法的一类错误控制较差。Bonferroni校正后permutation检验的一类错误轻度膨胀。⑵在其他参数不变的条件下,各算法的检验效能与两组间均数差异成正比,与离散系数成反比,而与阴性基因比例π0无关;相同参数条件下,baySeq、DESeq和edgeR算法的检验效能均高于permutation检验。通过对TCGA中的小RNA测序数据(BRCA)的实际分析,本研究提出“数据预处理→差异表达分析→聚类分析→功能富集分析”的统计分析策略,若单纯依据P值确定差异表达基因,四种方法的结果差异很大;若依据P值并同时结合生物学意义,即|log2(FC)|≥2,则四种方法结果相近。较之正常组织,肿瘤组织中发生差异表达的miRNAs共有15种,它们的靶基因显著地富集在一些肿瘤相关的生物学通路上。利用这15种miRNAs绘制的系统聚类图显示,表达特征相近的miRNAs聚集在一起,而肿瘤组织与正常组织分界清楚。 第二部分:深入研究“臂转换”现象和isomiR表达模式,同时比较了基于miRNA/isomiR表达谱的三种特征的判别效果。考虑到测序数据的极度偏态和过度离散特点,本研究推荐使用Wilcoxon秩和检验识别不同组织中发生“臂转换”的pre-miRNAs;采用基于秩次变换的MANOVA比较多重isomiR表达模式的组间差异。另外,差异表达isomiRs对样本的分类效果优于miRNA总读数和标准序列,提示研究者们在进行小RNA测序数据分析时除了要关注miRNA的差异表达,也要考察isomiR表达谱的变化趋势。综合上述分析,本研究认为:⑴DESeq算法可以在不损失检验效能的情况下同时控制假阳性率,推荐其用于小RNA测序数据的差异表达分析。⑵“数据预处理→差异表达分析→聚类分析→功能富集分析”是一个较为适用的小RNA测序数据分析策略。⑶秩变换MANOVA是一种思想朴素、易于实施的统计推断方法,可用于比较两组或多组间isomiR表达模式的差异,从而考察isomiR表达谱的变化趋势。模拟研究和实际应用表明,本研究提出的统计分析策略和方法,能够较好得解决生物工作者关于小RNA测序数据提出的统计分析问题,值得推广应用。