论文部分内容阅读
目的:使用DeepCAGE-seq分析HCMV Han-BAC感染人胚肺成纤维细胞(HELF)不同时间后转录起始位点(TSS)的特点及差异。研究方法:HCMV Han-BAC株以MOI=5感染HELF细胞,分别在感染后12h和72h收集总RNA,进行RNA帽子结构捕获和深度测序为基础的转录组分析(Cap-Trapper and Deep Sequencing Based Transcriptome Analysis,DeepCAGE),获得HCMV Han-BAC在HELF细胞中的TSS特征及不同感染时间点的差异。结果:制备总RNA样本,进行DeepCAGE-seq后分析数据。1)将所得宿主人的数据匹配到人基因组(hg38/GRCh38),人基因组CAGE转录起始位点簇(TC)大量聚集,倾向于5’UTR和基因的5’端末端,符合预期。CAGE测序数据匹配到HCMV Han株基因组上(Gen Bank:KJ426589.1),HELF 12h和HELF 72h两个文库分别获得2711和3181个TC。既往已证实的107个HCMV TSS与CAGE测序数据获得的TC高度符合,证实HCMV Han-BAC CAGE数据库的可信性。2)HELF12h和HELF 72h两个文库测序所得TSS比对到基因组上,结果显示HCMV Han-BAC TC在基因组广泛分布,感染时间增加,转录起始在基因组上分布更广泛。参考大多数既往已实验证实的HCMV TSS在CAGE测序中对应的TC的丰度,确定用于分析HCMV Han-BAC TCs的丰度届值为TPM大于5。TPM大于5的TCs根据HCMV Han-BAC TC与已证实的TSS和转录终止位点、ORF的位置关系将其分类7类,分别是intergene TC,5’UTR TC,3’UTR TC,CDS TC,intron TC,lnc RNA TC,antisense TC。统计各种类TC的数量及表达丰度。结果显示HCMV Han-BAC TC在基因组广泛分布,CDS和antisense区域TC数量显著聚集,ORF上游5’UTR TC的丰度明显高于其他分类。3)按照既往研究中用于转录起始分类的TCs至少需要100个CAGE tags的要求,HELF 12h文库中TPM大于207.79,HELF 72h文库中TPM大于23.43分别相当于100个CAGE tags。根据TPM不同取值范围时的TCs数量和TC宽度(十分位间距)分布归类。结果显示,HELF 12h文库中,当TPM取值207.79-500之间,TC在十分位间距为1nt时明显聚集,TPM取值大于500时,TCs的十分位间距在1-8nt处出现显著聚集;HELF 72h文库中,TPM取值分别在23.43-100、100-500和大于500时,TCs的十分位间距显著聚集分别出现在1nt、1-5nt、1-5nt。这些聚集的TCs代表一类具有确定碱基位置或较小范围的转录起始位点,命名为单主峰型(single dominant peak,SP)TC。对于十分位间距分布在更宽范围的TCs的特点进一步分析,获得广泛转录合并单主峰型(broad with a single dominant peak,DP),广泛转录合并两个或多个主峰型(broad with bi-or multi-peak,MP),以及低丰度转录无主峰型(generally broad distribution,GB)三类TCs。HELF 12h文库中,分别有92(36.7%)、92(36.7%)、42(16.7%)、25(9.9%)个TC归类于SP、DP、MP、GB;HELF 72h文库中分别有116(17.8%)、94(14.4%)、43(6.6%)、398(61.1%)个TC归类于SP,DP,MP,GB。4)每个TC内丰度最高的CTSS称为主导CTSS,其在基因组的位置用来代表TC的位置。主导CTSS上下游共100nt的核苷酸序列定义为核心启动子(core promoter)区域,使用MEME经典模式进行基序分析,Tom Tom将得到的基序与人基因组的基序数据库比对,查找相似转录因子结合序列并进行基序-基序相似性的统计评估。HELF 12h文库中92个SP core promoter序列MEME经典模式分析得到特异性基序TSTATAWAAR(E-value值5.1e-021),长度10nt,出现在41个(44.57%)core promoter中,Tom Tom匹配到14个不同的已知基序,其中最显著的为TBP(P-value值5.84e-06,E-value值2.34e-03,q-value值4.68e-03)。同样的方法分析HELF-72h文库116个Sharp promoter,发现1个有意义的基序TATWWAA(E-value值2.5e-006),长度7nt,出现在29个(25%)core promoter序列中,Tom Tom匹配到14个不同的已知基序,其中最显著的为TBP(P-value值2.15e-04,E-value值8.63e-02,q-value值1.73e-01)。典型的DP、MP、GB均未发现有意义的基序。5)根据既往107个已证实的HCMV Han-BAC基因TSS距离ORF的距离,其中80%的TSS在ORF起始点的-500~+100区域,据此我们绘制每个预测基因ORF起始点的-500~+100区域内TSS分布图,分析HCMV Han-BAC基因的TSS特点。如果基因-500~+100区域内的TSS主峰丰度超过次主峰丰度值的2倍,则定义为单峰主启动子,否则称为多峰启动子。如果此区域内主峰TPM小于20,称其为广泛低丰度启动子。同一基因两个时间点比较,其-500~+100区域内的TSS的差异分为两类。108个基因两个时间点比较,转录起始位点分布和主峰位置不变仅丰度改变。19个基因的转录起始位点分布和主峰位置在两个时相发生明显变化。6)数据分析发现,CDS区域内存在一定数量新的未被证实的TC,共有25个基因CDS区域内有TPM大于100且距离基因3’末端超过300nt的TCs。结论:HCMV Han-BAC DeepCAGE测序获得高质量转录起始位点数据。高丰度TC聚集在基因组ORF上游区域,根据TC内TSS的聚集方式不同分为SP,DP,MP,GB。HELF 12h和HELF 72h两个文库中SP TC的核心启动子均发现保守基序。基因-500~+100的TSS分布可分为三类,单峰主启动子,多峰启动子,广泛低丰度启动子。同一基因两个时间点比较,其-500~+100区域内的TSS的差异分为两类。108个基因转录起始位点分布和主峰位置不变仅丰度随时间改变。19个基因的转录起始位点分布和主峰位置在两个时相发生明显变化。25个基因的CDS区域内发现新的中高丰度未被证实的TC。