基于机器学习方法的circRNA分析预测研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhaodhsnd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
环状RNA(circular RNA,circRNA)是由反向剪接形成的共价闭合单链RNA分子,表达稳定。研究表明,circRNA与RNA结合蛋白(RNA binding proteins,RBP)相互作用,与多种疾病关联,是癌症诊断和治疗中新兴的生物标记物。另外已经在被病毒感染的人体细胞中发现了病毒circRNA,它们会干扰免疫系统并诱发包括人类癌症在内的疾病。因此,对circRNA进行系统研究是当前生物信息学领域的研究热点之一,开发有效的计算方法仍是未来的工作重点。本文旨在基于circRNA的多种生物数据,建立计算模型识别circRNA分子、预测circRNA-蛋白质的相互作用位点、预测circRNA-疾病关联,及对病毒circRNA进行功能分析。本文的主要研究内容如下:(1)基于改进极限学习机算法的circRNA预测研究论文首先根据circRNA的成环特点构建反向补体匹配特征(reverse complement matching,RCM)编码circRNA,及利用保守分数、图结构和核酸组成等方法编码circRNA。然后使用最大相关最大距离(max-relevance-max-distance,MRMD)方法进行重要特征选择。随后使用粒子群算法(particle swarm optimization,PSO)对极限学习机(extreme learning machine,ELM)算法进行优化,提高模型的性能。最后,在2个数据集上,使用构建的模型Cir RNAPL实现circRNA与lnc RNA、在干细胞表达的circRNA与未在干细胞表达的circRNA的区分。通过十折交叉验证(ten-fold cross-validation,TFCV)和独立测试集验证证明了Cir RNAPL模型的分类准确率、鲁棒性和可扩展性。(2)基于集成多尺度残差网络的circRNA-RBP相互作用位点预测研究为了学习有效的circRNA的文本语义信息,论文构建Circ2vec特征编码方案。并计算k-nucleotide频率、电子离子相互作用势(electron-ion interaction potential,EIIP)特征、核苷酸的化学特性及积累核苷酸频率(Accumulated nucleotide frequency,ANF)对序列进行编码。然后使用深度多尺度残差网络(multiscale residual network,MSRN)和具有自注意机制的双向门控递归单元(bidirectional gated recurrent units,Bi GRUs),提取局部和全局上下文信息,学习高层次的特征表示。并结合Adaboost集成算法构建学习模型CRBPDL。最后论文在37个circRNA数据集和31个线性RNA数据集上验证CRBPDL的有效性。(3)基于图马尔科夫神经网络的circRNA-疾病关联预测研究论文首先整合已知的circRNA-疾病关联数据,使用高斯核相互作用核分别计算circRNA、疾病的相似性网络,使用疾病间的有向无环图构建疾病的语义相似网络。然后提出一个基于图马尔科夫神经网络(graph markov neural networks,GMNN)的计算模型GMNN2CD,集成变分推断和图自动编码器,实现circRNA-疾病的预测。设计特征推理网络用于从circRNA和疾病的特征来推断表征,设计标签传播网络从已知的circRNA-疾病关联中传播标签。采用变分(expectation-maximization,EM)期望最大化算法交替训练两种自编码器。最后,使用5折交叉验证(five-fold cross-validation,FFCV)证明GMNN2CD在circRNA-疾病关联预测方面的先进性,使用案例分析证明GMNN2CD的预测性能。(4)病毒circRNA特征分析及功能研究病毒可以编码circRNA,在多种单链和双链病毒中都发现了病毒circRNA。然而,病毒circRNA的特征和功能仍然未知。论文首先对23种病毒circRNA进行系统分析,然后对冠状病毒中circRNA针对性分析。在综合分析时,论文对病毒circRNA序列进行比对分析其保守性;基于病毒circRNA序列提取RCM、保守分数特征、图结构特征、组成特征,比较病毒circRNA和一般动植物circRNA的序列特征差异;分析病毒circRNA与微RNA(micro RNA,mi RNA)相互作用,并进行了基因本体(Gene Ontology,GO)和京都基因与基因组百科全书(kyoto encyclopedia of genes and genomes,KEGG)通路分析。然后,通过分析源自RNase R处理的冠状病毒SARS-Cov1和SARS-Cov-2样本的RNA-Seq数据集,系统地确定冠状病毒中病毒编码的circRNA。并基于鉴定的数千个病毒circRNA,分析其表达量,确定了冠状病毒circRNA在调节宿主细胞功能中的生物学特征和潜在作用。
其他文献
石英晶体微天平(Quartz Crystal Microbalance,QCM)是一种能够将被测物质的物理属性(比如质量、密度、粘度和电导率等)转变为等效谐振参数的高灵敏度传感器。极高的灵敏度和实时在线检测等诸多优点使得QCM在材料表征、环境检测、医学诊断和食品检验等科学领域具有非常广泛的应用。本文以高灵敏度QCM传感器为研究对象,以其材料物理特性和振动特性为理论基础,深入研究液相负载和粘弹性负载
在中国福建明清时期起曾盛行一种民间说唱文本,即闽南语歌仔册。它卷帙浩繁,刊行种类约超1500余种;它横越闽、台两地,历经两个多世纪的岁月淘洗。它以庶民社会全景式记录的方式,扩充着官方史书中遭遇忽略、语焉不详的历史文化容量。它忠实生动地呈现了闽台两地悲欢离合的历史际遇,以及文脉相通、血脉相亲的历史渊源,它是海峡两岸人民共同缔造的“文学共同体”,也是具有传世价值的民间文学珍本。目前歌仔册珍本散失于海内
景观以其多功能性为人类发展提供了丰富的商品和服务,增强景观多功能性是实现国土空间生态修复和区域可持续发展的有效途径。东辽河流域上游位于我国东北地区的中心位置,是全国重要粮食生产区和东北生态安全屏障区,兼具维护区域粮食安全和生态安全的重要责任。由于生态空间过载开发,东辽河流域上游出现了土地利用剧烈变化、多种景观功能严重失衡、生态系统服务价值下降等生态问题,迫切需要有效的管理措施以恢复和提升景观的多功
评价毫无疑问已经成为提升早期教育质量最有力工具之一。幼儿园课程评价因其能为幼儿发展和课程改进提供重要的信息受到越来越多的关注,。但实践中幼儿园课程评价活动的成效并不尽如人意,尤其是幼儿园教师的评价活动还存在不少问题。为了充分发挥课程评价的作用,我们亟需把握幼儿园教师课程评价活动的实践样态并揭示影响课程评价活有效开展的原因,进而探寻优化幼儿园教师课程评价活动的路径。本研究以发展性评价取向为基本价值立
视网膜变性是一组因遗传因素或其他因素导致的感光细胞或视网膜色素上皮细胞进行性死亡的不可逆致盲性眼病。视网膜变性疾病致病机制复杂,目前尚无有效的治疗和预防策略。因此,需要对其致病机制以及治疗方法进行探索。已知视网膜是代谢最活跃的组织之一,视网膜代谢稳态失调,会导致视网膜病变。因此,本论文主要致力于视网膜变性疾病小鼠模型中代谢调控机制的研究,以及基于这些机制探索相关小分子药物在治疗中的应用。首先,本研
目前,微波无线通信系统向着小型化、高集成度、多制式、多功能和低成本的方向迅速发展。基片集成波导(Substrate Integrated Waveguide,SIW)因其高性能、低成本、易于集成的特点备受关注。但SIW的宽度受限于截止频率,其具体应用会面临尺寸较大的问题,难以满足现代无线系统严苛的小型化需求。在此背景下,本文对SIW展开深入研究,在对多容性加载SIW多模谐振器进行理论分析的基础上,
硅负极材料具有较高的理论比容量和较低的嵌锂电位,是比较理想的下一代锂离子电池负极材料。但是硅材料仍然没有大规模应用于锂离子电池工业中,这是由于硅材料存在一些还未解决的问题:在充放电过程中,硅负极的固体电解质界面膜(Solid electrolyte interphase,SEI)不断破裂和重生,消耗电解液和活性锂,导致在循环过程中库仑效率较低,本研究在文献调研硅负极表面SEI生长机理的基础上,重点
习近平著作在海外的广泛传播为我国在国际社会的“形象自塑”提供了新的研究思路。习近平著作中的政治修辞承载着阐释中国治国理政理念、传递合作共赢讯息以及展示领导人独特的个人魅力的多种职能。本文以奈达翻译理论为指导,将习近平论述中的修辞译文作为研究对象,从语言、文化、受众三个维度分别考察如何巧妙运用翻译方法,才能形象生动地传递中国声音,改变国际话语体系“外强我弱”的局面,变被动为主动地引导公允的舆论导向,
许鞍华具有“张爱玲情结”,所以会三度改编张爱玲小说。对经典文学文本进行影视改编本身具有极大的艺术风险,张爱玲在中国现代文学史上地位较高,其小说创作形成了独特风格,被称为“张爱玲体”,影视转译很难捕捉其风格特征。张爱玲小说大体可分两类,前期多为心理分析小说,风格浓艳,后期多为世情小说,风格平淡,比较适合改编的是第二类作品。在已出六部张爱玲小说改编电影中,《色,戒》《红玫瑰与白玫瑰》《半生缘》较具创造
在愈加不稳定的全球经济中,供应链中断作为突发事件,使得复杂网络中的企业暴露于运营和财务风险之中。供应链风险管理已经成为企业应对不利事件、解决潜在问题、适应变化环境时,保持运营稳定和提高绩效的重要手段。企业逐渐认识到利用企业能力和组织间治理来进行供应链风险管理的重要性。其中,桥接响应和缓冲响应是应对供应链中断的组织间响应策略。供应链恢复性和稳健性是组织内供应链风险管理实践。目前研究已关注到组织内部中