论文部分内容阅读
长链非编码RNAs (Long non-coding RNAs, lncRNAs),是转录本长度在200nt-100kb之间,存在于核内或胞浆内,它们本身并不编码蛋白或很少有编码蛋白质的功能。但越来越多的证据表明,lncRNAs与癌症的发生存在密切的联系,且在正常细胞和肿瘤细胞中存在差异表达。异常表达的lncRNAs可能在肿瘤发生中起着重要的作用。有的lncRNAs可以促进癌变,使其在卵巢癌中高度表达;有的lncRNAs可以抑制肿瘤,使其受到抑制。卵巢癌(Ovarian cancer)作为一种恶性肿瘤,生长迅速,易扩散。但通过积极的手术治疗及铂类为基础的联合化疗,60%~80%的患者在一线治疗后能获得临床完全缓解。而铂类敏感性的不同成为选择挽救治疗的重要参考依据,在临床应用中显示出越来越大的作用。本研究基于二代转录组测序(RNA sequencing,RNA-Seq)的卵巢癌铂类敏感和耐药数据,通过生物信息学方法,系统识别出卵巢癌铂类敏感和耐药lncRNAs,并对其差异表达及其相关功能进行研究,主要研究内容如下:1)从ArrayExpress数据库中下载基于Immila平台的RNA-Seq双端、在卵巢癌铂类敏感和耐药条件下的12个样品数据。应用FastQC、 FASTX-Toolkit以及Kmer直方图方法对并对其进行质量评估;同时根据本研究内容数据的特点,制定了一个合理的数据预处理方法。2)在对读段预处理的基础上进行转录组重建,包括转录组映射(Mapping)和装配(Assembly)。先使用tophat2进行读段映射,结果读段映射到基因组上的比率在93.6%-94.4%,读段双端完全映射上的比率在79.20%~83.6%;然后使用Cufflinks对映射上的读段进行装配,结果装配出了124,361个转录本,分布在78,900个不同的Loci:位点)上。3)提出了一种系统识别卵巢癌铂类敏感和耐药lncRNAs的方法。首先通过对转录本的长度、外显子数量和最大读段覆盖度等对编码转录本进行过滤;然后通过使用UCSC、RefSeq、Ensembl以及Encode4等数据库注释来滤除掉编码蛋白转录本;在此基础上使用编码潜能工具对剩下的转录本进行编码潜能预测,剩下的非编码转录本成为候选lncRNAs转录本;最后对候选的lncRNAs转录本,使用HMMER-3对其蛋白域进行估计,从而得到潜在的lncRNAs转录本,并从中鉴定出卵巢癌铂类敏感和耐药lncRNAs共1,325个,其中已知的1,162个和新的163个。4)对识别出的卵巢癌铂类敏感和耐药lncRNAs进行差异表达分析研究。通过分析,有46个lncRNAs具有明显的差异表达(fold change≥2),包括6个新的lncRNAs和40个已知的lncRNAs;为了更进一步分析差异表达的卵巢癌敏感和耐药lncRNAs的功能,我们分别对其进行了GO富集分析和通路(Pathway)分析。通过对lncRNAs的GO功能富集分析,结果显示,差异表达的lncRNAs与bingding(organic cyclic compound binding、ion binding等)、子宫内发育以及免疫进程等相关;通过对lncRNAs的Pathway分析,结果显示主要影响通路有核苷酸代谢、钙离子信号通路、系统性红斑狼疮、次级代谢生物学合成以及癌症中转录失调等相关。5)对差异表达的lncRNAs,使用RT-PCR对其表达量进行验证。为此,我们从中挑选出3个lncRNAs(2个来自于已知的lncRNAs,1个为新的lncRNAs),分别对其表达量进行验证,通过验证,实验结果显示表达量与分析结果相吻合。通过对以上的分析,确立了一种系统识别卵巢癌铂类敏感和耐药lncRNAs的方法,通过对显著差异表达的lncRNAs功能初步分析,明确了lncRNAs与bingding、子宫内发育以及免疫进程、癌症中转录失调等相关。对于显著差异表达的lncRNAs,未来如能通过不同的研究机构通过独立实验进行有效验证,则可以作为临床诊断卵巢癌耐药的分子标志物。