论文部分内容阅读
随着高通量测序技术的飞速发展,RNA-seq技术已逐渐成为转录组数据分析中的主要手段,它能够为研究人员提供更加全面的转录组信息,从而使得研究者能够对生物体的转录组进行细致全面的研究。本次研究中以癌症病人的RNA-seq数据为研究对象,主要进行以下几方面的工作:(1)提供了一个能够批量处理测序数据的数据预处理流程,并使用此流程对本次研究中所使用的原始数据进行了预处理工作。它由质量控制和序列比对两个部分组成,其中质量控制部分主要是使用FastQC和Trimmomatic来对原始数据进行质量评估和数据过滤,其目的是为了得到高质量的数据以用于后续分析;序列比对部分主要是使用STAR将测序数据比对到参考基因组上,其目的是为了恢复在测序过程中丢失的位置信息。(2)使用预处理得到的干净数据进行差异表达分析,首先使用RSEM进行表达定量得到各样本的原始计数数据,并通过合并、去0等操作得到用于差异表达分析的表达矩阵,之后使用DEseq2进行差异表达分析来筛选出癌症组织与癌旁组织中差异表达的基因,最后使用Fisher精确检验来对这些差异表达基因进行GO和KEGG pathway富集分析从而获得这些差异表达基因的功能信息,并通过这些信息来论证差异表达基因与癌症表型之间的关系。(3)使用基于PSI的方法来对外显子跳跃事件进行识别,此方法的核心是PSI值的预测,为完成此目的,本次研究中提出了一个基于集成学习的预测算法,此算法使用多层前馈神经网络作为基学习器,并使用Adaboost.R2回归算法来直接从RNA-seq数据对PSI值进行预测。本次研究中将25个癌症病人的RNA-seq数据分为5个比较组来分别进行差异表达分析,最终分别得到了229、211、153、132、170个差异表达基因,并通过富集分析得到了在这些差异表达基因中显著富集的GO term和Pathway,为后续癌症驱动基因的筛选提供了基础,同时本研究中提出的差异表达分析流程在运行效率上有一定优势,对其他基因疾病的研究具有一定的借鉴意义;对于本次研究中提出的外显子跳跃事件识别模型,使用由小鼠组织的RNA-seq数据生成的公共数据集来对其进行性能评估,结果显示此模型的预测精度较先前模型有明显的提高。