基于机器学习的长链非编码RNA的亚细胞定位及与疾病关联的预测

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:h120568
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长链非编码RNA(简称lnc RNA)在多种生物调节过程中扮演重要作用。一方面,lnc RNA不同亚细胞定位模式让它们能够执行不同的功能,识别lnc RNA的亚细胞位置有利于确定lnc RNA的功能。另一方面,lnc RNA的突变和失调影响多种人类疾病的发展进程,识别lnc RNA-疾病关联有利于揭示疾病的分子机制和探索治疗策略。然而,确定lnc RNA的亚细胞定位及与疾病的关联的生物学实验成本昂贵且耗时,已知信息远远不能满足现代医学研究的需要。因此,借助机器学习开发出效率更高的计算方法能为lnc RNA的亚细胞定位及与疾病关联的研究提供重要辅助。本文致力于提出有效的lnc RNA的亚细胞定位及与疾病关联的预测方法,具体工作如下:(1)针对lnc RNA的亚细胞定位的预测问题,本文基于机器学习及多种序列特征信息开发了一种预测lnc RNA的亚细胞位置的方法(称为lnc Loc Pred)。lnc Loc Pred首先提取样本序列特征,包括k联体核苷酸组分、伪二核苷酸组分和局部结构-序列三元组。然后,通过方差过滤,二项分布和F-score得分法有效进行特征选择。最后,利用逻辑回归模型预测lnc RNA所属的亚细胞位置。实验结果显示,在lnc RNA样本特征中排名靠前的k联体核苷酸组分通常以短重复的形式出现,并具有较高的G和C碱基含量。通过留一交叉验证方法的评估,lnc Loc Pred在基准数据集取得了92.37%的整体准确性,高于现有的最新预测方法,且在四个亚细胞定位上的预测准确性均有提高。此外,在本文整理的独立测试集上,lnc Loc Pred取得了高于其他预测器的整体准确率。(2)针对lnc RNA与疾病关联预测问题,本文提出了一种新颖的基于图卷积矩阵完成的lnc RNA-疾病关联预测模型(称为GCRFLDA)。为了有效学习到节点表示,GCRFLDA在编码中加入了条件随机场和注意力机制。GCRFLDA使用了高斯谱核相互作用相似性和余弦相似性作为lnc RNA节点和疾病节点的边信息。由于GCRFLDA仅需要lnc RNA-疾病关联信息,这提高了方法的通用性。在四个数据集上进行的交叉验证结果显示,GCRFLDA取得了比其他现有方法更好的AUC值。此外,本文对六种疾病共80对lnc RNA与疾病关联进行了案例研究,其中70对关联得到了相关文献的证实。实验结果表明,GCRFLDA可以用作预测潜在的lnc RNA-疾病关联的有效工具。本文提出的基于机器学习预测lnc RNA亚细胞定位及与疾病关联的方法都获得了较好的实验结果,对生物信息学的发展起到了补充作用。
其他文献
金属表面瑕疵的自动化检测是工业质量控制领域的研究热点,工业制造商对金属表面质量的高标准对计算机视觉检测系统及其算法的性能提出了更高的要求。由于金属表面瑕疵类别的复杂性和多样性,以及纹理区域、噪声灰尘等干扰的存在,检测划痕、裂纹和凹痕等缺陷对传统的计算机视觉方法来说是一项挑战。传统图像处理需要排除外界干扰对瑕疵进行统计分析,以定性或定量的方式表示特定瑕疵,在应用以及性能上具有一定的局限性。而深度学习
基于波达方向(DOA,direction of arrival)估计目标定位技术是阵列信号处理研究的重要内容之一,在雷达领域有着广泛的应用。传统的相控阵雷达波束指向在所有距离内都固定在一个角度,存在固有距离模糊性缺点,无法直接从其波束形成输出中估计目标的距离信息。频控阵(FDA,frequency diverse array)雷达与传统相控阵雷达不同,其波束方向图是角度-距离相关的,因此在雷达目标
目前无线体域网(WBAN)应用主要集中在医疗监测、老人监护和军事等方面,而无线体域网研究的基础是人体的电磁特征。故此,本文针对5.8GHz这一ISM频段的胳膊电磁特征展开研究,研究其传输电磁波时的通道特征,具体研究如下:1.真实胳膊电磁模型研究。首先利用3D成像扫描仪对特定个人的胳膊进行扫描,建立起具有真实外形的胳膊模型;然后,根据中国人群的医学生理特点和人体器官各相关的电磁参量,建立具有层状结构
下视线阵三维合成孔径雷达(Synthetic Aperture Radar,SAR)利用阵列天线与目标的相对运动合成二维虚拟面阵,结合脉冲压缩技术,获得空间目标的三维分辨能力。然而,这种基于宽带发射信号的SAR系统硬件设计复杂且接收信号不易分离。通过将频率分集阵列(Frequency Diverse Array,FDA)应用到三维SAR模型中,各阵元只需发射单频信号便可获得宽带观测性能,大大降低系
近些年,中国的对外承包业务展现出蓬勃发展的态势,使建筑业日益成为支撑经济发展的重要产业,既得益于“一带一路”战略的深入实施又得益于新型经济的快速发展。在“十四五”规划中提出以拓展基础设施建设为目标,加快完善公共交通基础设施建设,桥梁作为交通运输工程基础设施的重要组成部分,在规模和数量均呈现上升的趋势,且建造时受诸多不确定性风险因素影响较严重,如建设周期长、规模大、跨度大、受力复杂、所需资金多、施工
随着科技不断进步,在许多科学和工业领域产生了大量的数据。这些数据由多种特征表示,形成了多视图数据。因此处理这类数据的多视图学习逐渐成为深度学习、人工智能、神经网络、大数据等领域的研究热点。多视图聚类是多视图学习领域的研究方向之一,经过多年的研究和发展,虽然已经取得许多成就并且应用到实际生活中,但是也存在一些问题。例如,多视图聚类算法需要通过多视图数据预先构造出一个关系图,多视图数据结构复杂,存在不
低照度环境导致图像成像质量下降,图像噪声较多、对比度较低,用于图像分类、目标识别、图像理解分析、超分辨率重建等图像处理时效果不理想。因此需要对该类图像进行照度增强,即提高图像整体和局部的对比度、去噪,适当调整图像背景和边缘。本文利用变分自编码器作为关键技术针对低照度图像增强进行研究,从不同角度分析低照度图像特点,采用多种技术和手段完善低照度图像的图像结构,提高低照度图像的对比度、丰富细节并降低噪声
深度学习相关技术发展势头迅猛,在交通标志识别领域得到了广泛应用。一方面,传统的交通标志识别模型结构复杂,从头训练花费大量时间。另一方面,虽然迁移学习节约训练时间,但是源模型(教师模型)和其衍生模型(学生模型)具有相似的结构和参数,教师模型的对抗性样本容易被其学生模型分类错误。目前可以利用“指纹”识别法准确找到与学生模型对应的教师模型,如果敌手成功攻击对应的教师模型,投入应用的学生模型的安全会受到严
随着日常生产生活对位置服务的需求不断提升,室内定位逐渐成为目前研究热点之一。超宽带(Ultra-wideband,UWB)定位以其厘米级的定位精度成为室内定位的代表性技术,超宽带的定位精度受到非视距传播、多径效应、基站布设等因素影响,尤其是基站的布设阵型直接影响信号的视距传播(Line of Sight,LOS)和非视距传播(Non-Line of Sight,NLOS)、信号到达时间的测量精度等
随着无线通信技术的发展,航空飞行器集群在军事领域的应用逐渐广泛。集群在空中自发形成的航空自组织组网络(Aeronautical Ad Hoc Networks,AANET),覆盖范围广,组网和拆除速度快,抗毁性能强,能够执行更加复杂的任务。由于环境因素的影响和可用带宽的限制,AANET可靠通信对信道的时延和吞吐量有更严格的要求。现在AANET中使用的媒体接入控制(Media Access Cont