基于小波变换和分形维数的RNA二级结构比较方法的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:accphailan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的深入和发展,RNA分子的作用越来越多的被发现。尤其是其作为病毒的遗传物质这一角色,因为新冠肺炎的爆发获得了极大的关注。人们对RNA功能的研究在不断深入,由于RNA的功能与它的结构有着密切的关系,所以对RNA二级结构的研究随之成为了当今的一个热点课题。近年来,有许多关于RNA二级结构比较的方法,但是算法的准确性和普适性还需要进一步改进。本文针对不同类型的RNA提出了两个新颖的RNA二级结构比较方法,能够得到较为准确的比较结果。主要工作如下:1.针对短序列RNA,提出了一种基于分形维数和小波变换的短序列RNA二级结构比较方法。采用RNA三矢量曲线表示法将RNA二级结构表示为信号图,完成特征提取。其次,依据离散小波变换(Discrete Wavelet Transform,DWT)的多分辨特性,引入离散小波变换对含有生物信息的信号图进行多元分解。引入滑动窗口,使用Higuchi算法计算沿信号移动的固定长度窗口内信号的分形维数。最后,通过相似度计算,得到距离矩阵,从而构建进化树。实验选取常用的RFAM数据库中的几种短RNA序列,与已有的RNA二级结构比较算法相比较,实验结果表明,本文方法获得的结果更接近于标准的进化树,且时间复杂度更低。2.针对长链非编码RNA(long non-coding RNA,lncRNA),本文提出了一种新颖的RNA二级结构比较方法。该方法基于RNA二级结构的TVCurve表示,引入离散小波变换和去趋势波动分析方法(detrended fluctuation analysis,DFA)计算分形维数,对特征提取得到的图形进行分析比较,生成距离矩阵。然后对距离矩阵进行聚类分析,并将其可视化为进化树。利用RNA病毒和long non-coding RNA数据集进行实验,最后对进化树进行分析和比较。结果表明,该方法在RNA二级结构的比较中获得了更准确的结果。本文使用常用的RNA数据库和数据集进行实验,实验结果证明,无论是短序列RNA,还是长链非编码RNA,本文提出的方法在分类准确度上都有显著的提高。
其他文献
在高校中,除了计算机信息类专业学生开设计算机课程之外,计算机基础应用课程也是学校所有专业学生修读的公共基础课程。这些课程的教学实践以及学生的毕业设计,对计算机公共实验室的需求量和使用率不断提高。这就需要有与之相适应的信息管理手段,以提升计算机公共实验室管理的效率和有效性,更好地为学校教学发展服务。本文分析了广西某高校的计算机公共实验室管理现状和发展需求,给出了计算机公共实验室管理系统应具备的身份核
随着医院信息系统的建设发展,医院积累的医疗数据日益增多。如何从医疗数据中发现有价值的信息,具有重要实现意义。据有关报道,我国妊娠期糖尿病发病率在逐年上升。妊娠期糖尿病会对母婴健康造成不良影响。预防妊娠期糖尿病的发生是卫生部门一项重要的工作。本文以孕产妇产检的诊疗数据和住院期间的诊断数据为基础,设计开发妊娠期糖尿病关联规则挖掘系统,对妊娠期糖尿病的危险因素以及妊娠期糖尿病与妊娠并发症、母婴妊娠结局的
旅行商问题是一个经典的组合优化问题,它在印制电路板钻孔、基因组测序、飞机航线安排和晶体结构分析等领域有着广泛应用。旅行商问题也是一个NP难问题,它在运筹学和理论计算机科学中有着重要地位。因此,求解旅行商问题具有重要的理论研究价值和工程应用背景,它已经成为组合优化问题中的研究热点之一。旅行商问题属于NP难问题,求解它的精确算法已经被淘汰。国内外许多研究人员采用群体智能优化算法对旅行商问题进行了研究,
当前大数据时代的到来,已经给各行各业带来了翻天覆地的变化和发展,更是推动了我们国企业的创新进程,为了能更好的适应新时代,利用大数据、云数据等手段推动行业创新营销,增加核心竞争力。中国联通作为国内三大运营商之一,针对市场调研数据的分析在如今的环境之下,已经变成了一项复杂的工作。本文基于服务的云模型平台,不仅能集各省各地市不同人员的分析角度,更是能减少资源成本,把隐藏在后台数据中的信息集中和提炼出来,
台风是一种体系庞杂的大气运动系统,具有严重的破坏性。目前世界上对台风强度预测还处于一个探索和研究的阶段,随着现代化天气业务和服务需求的变化,对台风监测系统自动化程度要求也随之提高。经过40多年的发展,预测员们正逐步将人工智能应用于台风强度预测,近年来,基于深度学习的卷积神经网络(Convolutional Neural Networks,CNN)正在成为研究的热点,此类对象分类技术也日趋成熟,但在
内部边界网关协议(Internal Border Gateway Protocol,IBGP)是互联网不可或缺的基础设施,若没有正确合理配置,很容易产生路由环路和次优路由。这些路由异常问题是非常有害的,它们会增加路由器的工作负荷,导致路由器的性能下降。因此解决上述IBGP路由异常问题是至关重要,但传统的解决方案要么配置复杂,要么消耗过多的资源。所以研究如何有效的解决IBGP路由异常的同时使得解决方
随着大数据时代的发展,对海量数据进行高效、安全的存储变得越来越重要。分布式安全存储技术结合分布式存储技术和数据加密技术,具备了安全、海量存储等特点,已成为当前信息安全领域研究的一个热点。在分布式存储技术中,对存储节点的选择是一个关键问题。选择的节点是否合理,会影响到系统的性能和存储容量的有效利用。在对现有节点选择算法进行研究后,本文提出了一个更加高效的算法——基于多属性决策的节点选择算法。该算法在
太平洋生物科学平台(Pacific Biosciences)和牛津纳米孔平台(Oxford Nanopore)的长序列(long read)测序技术的兴起,促进了基因组数据分析的发展。与短序列(short read)测序技术相比,长序列测序技术可以解决规模更大、更复杂的基因组组装问题。但是,长序列的错误率非常高,Pacific Biosciences测序技术产生的长序列的错误率约为10%~15%,
人与物体交互活动的识别是人工智能领域最热门的研究方向之一,是计算机视觉研究领域不可或缺的重要研究部分。同时,人与物体交互活动识别是图像理解、自动描述图像内容等研究的基础。在实际应用中可以广泛用于网站图像搜索,安保系统检测等。本文提出一种新的混合深度学习模型,旨在提升和改善图像中人与物体交互活动识别的效率。模型首先设计一种基于深度学习的方法对图像三维空间关系信息进行建模,探索人与物体交互活动的构图规
脑卒中又称“中风”,属于急性脑血管疾病。脑卒中死亡率和致残率高,完全康复和痊愈的难度较大,对患者的患病后很长一段时间的健康自主生活会产生消极影响。目前国内已经建立了疾病诊疗电子管理系统,积累了大量脑卒中患者就诊、治疗、康复等医疗数据,如何挖掘这些数据中的价值,建立诊疗辅助决策系统,是现阶段提升医疗效率和智能化水平的重要路径,也是本文研究的重点。在对国内外医学数据挖掘、脑卒中诊疗、辅助决策系统设计等