基于miRNA/isomiR表达谱开展小RNA深度测序的分析方法研究

来源 :南京医科大学 | 被引量 : 1次 | 上传用户:lisong459
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新一代测序技术的发展及公共数据库的建立,研究者们能够快速地获取海量小RNA测序数据,那么该技术能否为人类基因组学研究带来新突破,关键在于研究者们如何有效地处理和分析这些数据,一些生物信息学方法与软件也应运而生。然而,大部分测序研究由于样本较少而只是单纯的统计描述,其中的一些统计分析方法也存在诸多的局限性。为此,本研究通过计算机模拟,从统计学角度,系统地评价了四种差异表达算法在小RNA测序数据分析中的统计学性质和应用效果;同时结合TCGA公共数据库,从实际应用的角度,基于miRNA/isomiR表达谱探讨了小RNA测序数据的统计分析策略和方法。  第一部分:基于负二项分布和实际参数设计模拟试验,考察四种特征选择算法的一类错误和检验效能,主要结论如下:⑴baySeq、DESeq和permutation检验均能控制一类错误,其中baySeq控制过于严格,而edgeR算法的一类错误控制较差。Bonferroni校正后permutation检验的一类错误轻度膨胀。⑵在其他参数不变的条件下,各算法的检验效能与两组间均数差异成正比,与离散系数成反比,而与阴性基因比例π0无关;相同参数条件下,baySeq、DESeq和edgeR算法的检验效能均高于permutation检验。通过对TCGA中的小RNA测序数据(BRCA)的实际分析,本研究提出“数据预处理→差异表达分析→聚类分析→功能富集分析”的统计分析策略,若单纯依据P值确定差异表达基因,四种方法的结果差异很大;若依据P值并同时结合生物学意义,即|log2(FC)|≥2,则四种方法结果相近。较之正常组织,肿瘤组织中发生差异表达的miRNAs共有15种,它们的靶基因显著地富集在一些肿瘤相关的生物学通路上。利用这15种miRNAs绘制的系统聚类图显示,表达特征相近的miRNAs聚集在一起,而肿瘤组织与正常组织分界清楚。  第二部分:深入研究“臂转换”现象和isomiR表达模式,同时比较了基于miRNA/isomiR表达谱的三种特征的判别效果。考虑到测序数据的极度偏态和过度离散特点,本研究推荐使用Wilcoxon秩和检验识别不同组织中发生“臂转换”的pre-miRNAs;采用基于秩次变换的MANOVA比较多重isomiR表达模式的组间差异。另外,差异表达isomiRs对样本的分类效果优于miRNA总读数和标准序列,提示研究者们在进行小RNA测序数据分析时除了要关注miRNA的差异表达,也要考察isomiR表达谱的变化趋势。综合上述分析,本研究认为:⑴DESeq算法可以在不损失检验效能的情况下同时控制假阳性率,推荐其用于小RNA测序数据的差异表达分析。⑵“数据预处理→差异表达分析→聚类分析→功能富集分析”是一个较为适用的小RNA测序数据分析策略。⑶秩变换MANOVA是一种思想朴素、易于实施的统计推断方法,可用于比较两组或多组间isomiR表达模式的差异,从而考察isomiR表达谱的变化趋势。模拟研究和实际应用表明,本研究提出的统计分析策略和方法,能够较好得解决生物工作者关于小RNA测序数据提出的统计分析问题,值得推广应用。
其他文献
为了深入而广泛地探讨乳头状甲状腺癌(PTC)的环境危险因素,我们在上海进行了以医院为基础的配对病例对照研究,并用分子生物学方法探索ATM基因的SNP及其与PTC遗传易感性的关系
该研究以食管癌细胞株EC-9706进行体外实验,采用MTT比色法测定大豆异黄酮对食管癌细胞的生长抑制率;探讨大豆异黄酮在体外诱导食管癌细胞发生凋亡的可能性,揭示该凋亡发生与b
糖尿病是常见的慢性病,发病率逐年上升。WHO报告显示,1985年全球有3000万糖尿病患者,1995年达1.35亿,2000年底为1.51亿,预测到2025年将达到3亿,其中95%为2型糖尿病(T2DM)患者
根据标准JB/T4783-2007《低温液体汽车罐车》,结合原有的相关标准对低温液体汽车罐车罐体的设计压力、计算压力、耐压试验压力、安全阀开启压力及爆破片压力的确定给出了方法
食管癌被认为是继胰腺癌之后,第二位难以治愈的消化道恶性肿瘤。中国是世界上食管癌发病率和死亡率较高的国家,占全世界的50%以上,每年约有25万新诊断出的食管癌病例,发病率仅次于胃癌、肺癌、肝癌之后,居第4位,发病男多于女,发病年龄多在40岁以上。东南大学公共卫生学院教授孙桂菊等,通过对B族维生素的摄入情况与食管癌癌前病变和发病情况的研究,为我国食管癌的营养防治提供了重要依据。  食管癌是“穷癌”