论文部分内容阅读
狍(Capreolus pygargus)是我国重要的经济动物,具有广泛的市场应用前景。本研究通过Illumina/Solexa测序平台进行狍茸顶端组织转录组测序,使用自体组装软件Trinity对测序短序列reads进行从头组装,建立狍茸顶端组织转录组数据库。并与蛋白数据库Nr、Swiss-Prot、KEGG和COG进行序列比对、功能注释及代谢通路分析;与已有的梅花鹿鹿茸顶端组织转录组数据库进行简单比较分析;在此基础上,我们选出癌症通路中ANXA-2和PTN功能基因进行克隆测序,获得了包含这两个基因全部编码区的cDNA序列,并与转录组测序数据库中拼接组装得到的这两个Unigene的cDNA序列进行比对,以佐证转录组测序数据库的准确性。从转录组水平开展对狍茸的研究,更有利于揭示狍茸的生长机制,为提高狍茸产量和质量提供理论依据。1、狍茸顶端组织转录组测序共得到的5千多万个高质量短序列reads,采用组装拼接后共获得两端不能再延长的Unigenes 36865个,平均长度932nt,N50值为1579nt,接近98%的序列测序质量值均在Q20(碱基测序错误率为1%)2、在数据库比对及功能基因的注释过程中,发现与Nr数据库比对上的Unigenes共22983条,可以直接确定其CDS区及序列方向。其余序列用ESTscan软件进行编码区预测,结果表明有510条可能为新的蛋白编码序列;在COG功能分类,共有8668条Unigenes被归类到25个功能类别中;通过GO功能分类,共有18273条Unigenes被归类到61个功能类别中:通过KEGG代谢通路分析,共有1 7284条基因注释到258个信号通路中。3、对狍茸转录组数据进行整体筛选分析,按照FPKM值从高到低的顺序排序发现,表达量较高的一类蛋白是胶原蛋白,在胶原蛋白中表达量最高的是COL1A1、 COL1A2, COL16A1、COL9A1、COL27A1。并且发现至少141种与生长相关的基因及受体,生长相关高表达基因中高表达的有TGFB3、IGF、TGFBP、IGF4、CTGFP、 PDGFR等;挑选出至少259种转录因子,这一类与转求相关高表达的基因中,表达量最高的为ATF4、TFAP1、GTFIIF、SNAI2、JunB、TFp65等;挑选出至少384种细胞外基质,大部分的细胞外基质主要集中在胶原类成分。4、克隆包含ANXA-2与PTN基因全部编码区的cDNA序列,分别编码339和168个氨基酸。与转录组数据库所测得序列进行比对,相似性分别为99.7%和99.0%,进一步佐证了本转录组测序结果的准确性。