基于RNA-seq数据的差异表达分析与外显子跳跃事件识别

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:cdtst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的飞速发展,RNA-seq技术已逐渐成为转录组数据分析中的主要手段,它能够为研究人员提供更加全面的转录组信息,从而使得研究者能够对生物体的转录组进行细致全面的研究。本次研究中以癌症病人的RNA-seq数据为研究对象,主要进行以下几方面的工作:(1)提供了一个能够批量处理测序数据的数据预处理流程,并使用此流程对本次研究中所使用的原始数据进行了预处理工作。它由质量控制和序列比对两个部分组成,其中质量控制部分主要是使用FastQC和Trimmomatic来对原始数据进行质量评估和数据过滤,其目的是为了得到高质量的数据以用于后续分析;序列比对部分主要是使用STAR将测序数据比对到参考基因组上,其目的是为了恢复在测序过程中丢失的位置信息。(2)使用预处理得到的干净数据进行差异表达分析,首先使用RSEM进行表达定量得到各样本的原始计数数据,并通过合并、去0等操作得到用于差异表达分析的表达矩阵,之后使用DEseq2进行差异表达分析来筛选出癌症组织与癌旁组织中差异表达的基因,最后使用Fisher精确检验来对这些差异表达基因进行GO和KEGG pathway富集分析从而获得这些差异表达基因的功能信息,并通过这些信息来论证差异表达基因与癌症表型之间的关系。(3)使用基于PSI的方法来对外显子跳跃事件进行识别,此方法的核心是PSI值的预测,为完成此目的,本次研究中提出了一个基于集成学习的预测算法,此算法使用多层前馈神经网络作为基学习器,并使用Adaboost.R2回归算法来直接从RNA-seq数据对PSI值进行预测。本次研究中将25个癌症病人的RNA-seq数据分为5个比较组来分别进行差异表达分析,最终分别得到了229、211、153、132、170个差异表达基因,并通过富集分析得到了在这些差异表达基因中显著富集的GO term和Pathway,为后续癌症驱动基因的筛选提供了基础,同时本研究中提出的差异表达分析流程在运行效率上有一定优势,对其他基因疾病的研究具有一定的借鉴意义;对于本次研究中提出的外显子跳跃事件识别模型,使用由小鼠组织的RNA-seq数据生成的公共数据集来对其进行性能评估,结果显示此模型的预测精度较先前模型有明显的提高。
其他文献
【正】 一杜维明先生是继唐君毅、徐复观、牟宗三之后的新一代现代新儒家的主要代表人物之一。他自称“1966年我决定全力从事对儒家的精神价值作长期的探索并以此作为自己专
对于介词“对”与“向”,学者们有不同的解释。例如: 对:介词。1.指示动作的对象;朝;向。2.表示对待。用法大致同“对于”。向:介词。1.跟名词组合,表示动作的方向。2.引进动作的对象,跟指人
光催化分解水制氢和还原CO2是太阳能利用领域的研究热点,对清洁能源的转化具有重要意义.石墨相氮化碳(CN)作为一种非金属半导体,是一种非常有开发潜力的光催化材料.然而限于其
就中国目前而言,应该把改革放在重要的位置,不能盲目追求速度。近年来中国经济出现了下滑,人们都说经济发展进入了新常态,新常态究竟是什么意思?我理解,新常态就是按经济规律
基于英汉两种语言思维方式差异,分析和探讨英语句子重心问题。首先分析了英语句子结构"多枝共干结构"的特点,然后采用英汉两种语言对比方式,分析和探讨了英语句子结构重心和语
目的:建立藏药水柏枝的质量标准。方法:从性状特征、显微特征、薄层色谱(TLC)方面对药材进行定性鉴别;检测药材水分、灰分和浸出物的含量;采用高效液相色谱法(HPLC)测定药材中没食子
企业资金稳定与否关系到企业经营的成败,因此管理人员应做好企业资金调度控制与管理工作,这样才能为企业赢得更多发展机遇,才能增强企业的市场竞争力。在此状况下,本文首先对
传统会计越来越不适应未来企业的成本管控要求,在这种历史局面之下,作业成本法诞生。它是以作业为基础的成本计算方法,企业全部作业所消耗资源的总和便是产品的成本。它的核
本科生冶金设备与工艺基础课程是冶金机械专业的必修课程,其课程特点要求理论讲授贴近工程实际,跟踪现代冶金设备与工艺流程的发展方向。在教学过程中可以通过有效衔接机械基
共同富裕是社会主义的本质要求,其实现有赖于合作模式中分工和分配方式的选择。分工的效率优势提升生产力水平,分配方式的改进推动生产关系的进步,并反作用于生产力的持续发