论文部分内容阅读
Small RNA(sRNAs)是一类长度在几十至几百个核苷酸之间的非编码小分子RNA,在生物体内通过和靶mRNA碱基互补配对结合进而调控基因表达,从而参与控制细胞的多种生物过程。最初,sRNA由于长度过小,很难被检测到。随着高通量测序技术的出现,越来越多的sRNA不断被发现,其作为调控基因表达的重要调节因子也逐渐成为生命科学研究的热点问题。现有研究证实sRNA在跨界调控中起着重要作用。由于sRNA的序列及结构与其进入宿主细胞的能力息息相关,因此从序列及结构方面对跨界sRNA进行数据分析,进而寻找并识别类似的跨界sRNA,不仅可以发掘sRNA序列及结构和功能的相关性,也对有效识别未知的跨界sRNA有重要意义。截止到目前,有关sRNA的研究主要集中在对sRNA的序列分析和靶基因功能识别方面,而对于跨界sRNA序列的研究还处于初期研究阶段,且均是针对特定物种进行研究。本文从生物计算入手,在研究常见RNA数据分析方法基础上,基于真菌和植物、植物和人体sRNA高通量数据提出了一种跨界sRNA数据分析方法。首先应用统计学方法分析跨界sRNA序列及结构信息,其次在对差异表达的跨界sRNA分析的基础上,识别出可能影响sRNA进入宿主细胞参与跨界调控的分子特征,构建基于机器学习的跨界sRNA识别模型,用来识别可能被宿主吸收的外源性sRNA,进而挖掘跨界sRNA可能存在的生物学意义及生物功能。本文首先收集真菌和植物、植物和人体sRNA数据并对其进行质量、剪切识别等一系列预处理;然后,应用机器学习方法对sRNA序列及结构特征进行选择构建特征子集,进而构建跨界sRNA识别模型,用来对能够进入宿主细胞的sRNA进行识别;最后,对模型进行评估,并对识别的跨界sRNA进行靶基因筛选、功能富集分析及基因相互作用关系挖掘,从而分析出其在生物系统中的功能。本文选用真菌和植物数据以及人类和植物sRNA数据作为实例分别用本文提出的数据分析方法进行研究,其中,对真菌和植物模型的正确率在84.5%,植物和人体正确率在78.2%。本文提出针对跨界sRNA高通量测序数据的分析方法为研究跨界sRNA进入宿主细胞的能力与其结构和特征间的关系提供了新的研究思路,为今后研究sRNA的跨界调控机制提供了新的研究方向,同时在农作物,药物和疾病等方面都有部分指导意义。