论文部分内容阅读
环状RNA(circular RNA,circRNA)是由反向剪接形成的共价闭合单链RNA分子,表达稳定。研究表明,circRNA与RNA结合蛋白(RNA binding proteins,RBP)相互作用,与多种疾病关联,是癌症诊断和治疗中新兴的生物标记物。另外已经在被病毒感染的人体细胞中发现了病毒circRNA,它们会干扰免疫系统并诱发包括人类癌症在内的疾病。因此,对circRNA进行系统研究是当前生物信息学领域的研究热点之一,开发有效的计算方法仍是未来的工作重点。本文旨在基于circRNA的多种生物数据,建立计算模型识别circRNA分子、预测circRNA-蛋白质的相互作用位点、预测circRNA-疾病关联,及对病毒circRNA进行功能分析。本文的主要研究内容如下:(1)基于改进极限学习机算法的circRNA预测研究论文首先根据circRNA的成环特点构建反向补体匹配特征(reverse complement matching,RCM)编码circRNA,及利用保守分数、图结构和核酸组成等方法编码circRNA。然后使用最大相关最大距离(max-relevance-max-distance,MRMD)方法进行重要特征选择。随后使用粒子群算法(particle swarm optimization,PSO)对极限学习机(extreme learning machine,ELM)算法进行优化,提高模型的性能。最后,在2个数据集上,使用构建的模型Cir RNAPL实现circRNA与lnc RNA、在干细胞表达的circRNA与未在干细胞表达的circRNA的区分。通过十折交叉验证(ten-fold cross-validation,TFCV)和独立测试集验证证明了Cir RNAPL模型的分类准确率、鲁棒性和可扩展性。(2)基于集成多尺度残差网络的circRNA-RBP相互作用位点预测研究为了学习有效的circRNA的文本语义信息,论文构建Circ2vec特征编码方案。并计算k-nucleotide频率、电子离子相互作用势(electron-ion interaction potential,EIIP)特征、核苷酸的化学特性及积累核苷酸频率(Accumulated nucleotide frequency,ANF)对序列进行编码。然后使用深度多尺度残差网络(multiscale residual network,MSRN)和具有自注意机制的双向门控递归单元(bidirectional gated recurrent units,Bi GRUs),提取局部和全局上下文信息,学习高层次的特征表示。并结合Adaboost集成算法构建学习模型CRBPDL。最后论文在37个circRNA数据集和31个线性RNA数据集上验证CRBPDL的有效性。(3)基于图马尔科夫神经网络的circRNA-疾病关联预测研究论文首先整合已知的circRNA-疾病关联数据,使用高斯核相互作用核分别计算circRNA、疾病的相似性网络,使用疾病间的有向无环图构建疾病的语义相似网络。然后提出一个基于图马尔科夫神经网络(graph markov neural networks,GMNN)的计算模型GMNN2CD,集成变分推断和图自动编码器,实现circRNA-疾病的预测。设计特征推理网络用于从circRNA和疾病的特征来推断表征,设计标签传播网络从已知的circRNA-疾病关联中传播标签。采用变分(expectation-maximization,EM)期望最大化算法交替训练两种自编码器。最后,使用5折交叉验证(five-fold cross-validation,FFCV)证明GMNN2CD在circRNA-疾病关联预测方面的先进性,使用案例分析证明GMNN2CD的预测性能。(4)病毒circRNA特征分析及功能研究病毒可以编码circRNA,在多种单链和双链病毒中都发现了病毒circRNA。然而,病毒circRNA的特征和功能仍然未知。论文首先对23种病毒circRNA进行系统分析,然后对冠状病毒中circRNA针对性分析。在综合分析时,论文对病毒circRNA序列进行比对分析其保守性;基于病毒circRNA序列提取RCM、保守分数特征、图结构特征、组成特征,比较病毒circRNA和一般动植物circRNA的序列特征差异;分析病毒circRNA与微RNA(micro RNA,mi RNA)相互作用,并进行了基因本体(Gene Ontology,GO)和京都基因与基因组百科全书(kyoto encyclopedia of genes and genomes,KEGG)通路分析。然后,通过分析源自RNase R处理的冠状病毒SARS-Cov1和SARS-Cov-2样本的RNA-Seq数据集,系统地确定冠状病毒中病毒编码的circRNA。并基于鉴定的数千个病毒circRNA,分析其表达量,确定了冠状病毒circRNA在调节宿主细胞功能中的生物学特征和潜在作用。