基于机器学习的circRNA和疾病关联关系预测

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:wumingwuming2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的发展,越来越多的环状RNA(circular RNA,circRNA)分子在许多的真核细胞中被发现,于此同时circRNA的各项生物功能也逐渐被人类所悉知。circRNA主要的生物特性主要是作为微小RNA(microRNA,miRNA)的海绵体,参与转录调控以及亲代基因修饰的功能。circRNA的内源性、丰富性、保守性、稳定性的特征使得circRNA可能成为预测疾病的生物学标志物。在这样的前景下,circRNA上蛋白质绑定位点的识别,circRNA和相关蛋白质关系预测以及circRNA与疾病之间关系的预测已经成为主要研究课题。除此之外,最近的研究表明,circRNA与人类疾病基因相关,在预测药物靶点方面能够发挥重要作用。因此,预测circRNA与疾病之间的关系是很必要的,这将有助于我们理解细胞生命活动的最低要求,并为治疗疾病找到新的方法。然而传统的生物学检测circRNA与疾病关联关系的方法工作效率较为低下并且价格昂贵,虽然现在存在有少量的计算方法来预测circRNA与疾病之间的关联关系,但是在预测的正确率和计算效率上还有待提高,所以本文的重点在于进一步提高circRNA-疾病关联关系预测的正确率和计算效率。本文的主要研究工作如下:(1)提出了基于路径权重的circRNA-疾病的关联关系预测方法,将其命名为PWCDA。该方法结合circRNA靶点基因的相关基因本体(Gene Ontology,GO)数据、疾病相关基因数据和circRNA-疾病关联关系数据来连接每对circRNA-疾病关联关系,首先构建了由疾病相似性网络、circRNA相似性网络和circRNA-疾病关联网络三个子网络组成的异构网络,再根据在异构网络中连接它们的路径的权值,计算出每个circRNA疾病关联关系对的相关性得分,然后将所有的circRNA-疾病的关联关系得分进行排序,筛选出得分较高和标准数据集进行比较。考虑到circRNA之间相似性和疾病之间相似性仅仅依赖于各自的相关生物数据是不充分的,因此将生物数据与网络拓扑相似性网络相结合。实验结果表明该方法显著提高了 circRNA-疾病关系预测的准确性。(2)提出了基于多数据融合的网络的协同过滤的circRNA-疾病关系预测方法,将其命名为ICFCDA。首先,我们先通过circRNA靶基因的相关基因本体数据、circRNA对应的碱基序列数据和circRNA疾病关联关系来计算circRNA功能注释语义相似性、序列相似性和高斯相互作用谱(Gaussian interaction profile,GIP)核相似性。其次,利用疾病相关基因和circRNA疾病关联关系计算疾病功能相似性和疾病GIP核相似性。此外,我们还将疾病名称转换为对应的疾病本体(Disease Ontology)ID,再根据DOES工具计算疾病语义相似性。第三,将多个疾病相似性和circRNA相似性相结合,整合成最终的疾病相似性矩阵网络和circRNA相似性矩阵网络。最后,采用改进的协同过滤的方法对每circRNA-疾病关联关系进行存在的可能相关性进行评分。实验结果表明,该方法不仅提高了 circRNA与疾病关系的预测效率也提高了预测circRNA与疾病关系的准确性。(3)提出了基于梯度增强决策树的多生物数据融合的circRNA-疾病的关系预测方法,该方法命名为GBDTCDA。首先,采用circRNA相关表达谱数据、基因本体(Gene Ontology)数据和相关碱基序列等多种生物学数据构建circRNA相似网络(CSN)。疾病相关基因本体数据和相关基因数据被采用来构建疾病相似性网络。然后是在构建好的CSN、DSN和circRNA疾病关联网络中来提取统计学的信息特征,CSN和DSN的图论信息特征,circRNA的代表性生物学指标特征,如GC含量和k-mer,以及从circRNA-疾病关联关系网络中提取的隐式向量等特征。用以上的特征来综合表示每对circRNA-疾病关联关系的特征向量。将这些特征向量中的一部分circRNA-疾病关联关系输入来训练模型,其余的数据被当作测试数据。通过对测试数据的预测结果分析,可以发现本方法明显提高了预测circRNA与疾病关系的准确率。
其他文献
在移动通信系统的发展历程中,系统标准和核心技术的更迭与人们对于通信业务的需求变化密不可分。移动互联网和物联网应用的蓬勃发展对第五代移动通信系统(5G)提出了更高频谱效率、更大规模设备接入及更低时延的新要求。前四代移动通信系统中的多址接入技术已不能满足5G发展的需求。因此需要研究新的资源复用与多址接入协议来满足未来通信发展的需要。在面向5G的研究中,非正交多址接入(Non-Orthogonal Mu
气体绝缘全封闭组合电器(Gas Insulated Switchgear,GIS)是电力系统的核心设备之一,该设备采用SF6气体而不使用大气压下的空气作为绝缘介质,是一种金属全封闭的开关设备。该设备起着保护和控制电路的作用,变电站的其他设备均受到其控制和保护,因此它是电力系统正常运转的重要保障。据统计数据显示,GIS的机械故障占所有故障类型的39%左右,是最为常见的一种故障类型。当该设备产生故障后
为了解决人类社会不断增长的能源需求与日益严重的环境污染之间的矛盾,人们把目光转向燃料电池等新兴能源。燃料电池是一种将燃料所含的化学能直接转换成电能的发电装置。区别于传统热机,其能量转换过程不受“卡诺循环”的影响,转换效率高。然而,燃料电池却并没有像热机一样得到广泛的应用。制约其商业化发展的原因主要有两条:一是高昂的制造成本、二是使用寿命。其中,它的高昂制造成本主要归因于需要用到贵金属Pt作为催化剂
激光作为人类历史上的一大重要科学发明,划时代地改变了人类社会的各行各业,不可不谓为二十世纪最伟大的科学发明之一。自从1917年爱因斯坦于理论上提出受激辐射的概念后,在1960年,美国科学家西奥多·哈罗德·梅曼便根据微波激射器的启发制成了世界上第一台激光器,一台红宝石激光器。世界上第一台激光器诞生距今已有60年,在这60年间,激光器的发展日新月异,目前在科学研究、工业生产、医疗卫生、测距通信和军事应
近年来,随着移动通信的迅猛发展和5G时代的来临,人们对微波器件的小型化提出了更高的要求,迫切需要开发出更多具有低损耗(Q×f>5000 GHz)、中高介电常数(εr>20)和近零谐振频率温度系数(τf≈0 ppm/℃)的微波介质陶瓷材料。本论文围绕钽酸盐系列陶瓷,利用传统固相反应法,开发了两种性能良好的新型钽酸盐微波介质陶瓷,并通过两相复合和离子取代的方法对其微波介电性能进行改性研究,获得了一些有
大数据时代,利用海量数据支撑各类决策已经成为普遍现象,而深度学习因其端到端学习,同时能够实现较高任务精度等优点而受到广泛关注。在深度学习快速发展的同时,一系列隐私保护问题突出,从个人数据非法共享,到攻击者利用公开模型及其参数反向推断出训练数据,隐私泄露严重。因此,研究一种既能保护数据隐私,又能保证较高可用性的深度学习方法具有重要意义。差分隐私是一种基于扰动思想的隐私保护技术,将其应用于深度学习中,
量子资源的操纵和量化是量子物理中的基本问题。在这个领域早期的发展过程中,研究者们研究了各类拷贝、转换和提纯问题。之后对于这些问题的研究趋向于更细致具体的方面,随之出现了两种最具代表性的量子操作-蒸馏与稀释。本文研究了单拷贝框架下纯态相干蒸馏与相干稀释问题,用优化关系定义单拷贝框架下纯态相干蒸馏的最大值与纯态相干稀释的最小值。在此基础上,提出了一套有效地进行纯态确定性相干蒸馏与相干稀释的单步协议,给
图像是人们获取信息最重要也是最直观的来源之一。因而,图像的智能化处理成为各国研究人员所关注的热点。为了提取图像中的关键信息,以便于理解图像的内容,则需要对图像进行分割。图像分割的方法有许多种,其中基于阈值的分割方法是图像分割方法中较为成熟高效和易于实现的一种方法。图像阈值分割主要由两部分组成,一是确定用来获取分割阈值的目标函数,这直接决定了图像的分割质量,二是在阈值数量增加之后,使用合适的优化算法
高分三号卫星是中国首颗C频段多极化高分辨率合成孔径雷达(Synthetic Aperture Radar,SAR)卫星,不仅全天时、全天候观测陆地和海洋,而且高分三号卫星具有成像分辨率高,成像幅宽比较大,以及辐射精度高,成像模式多等特点。无论是军用还是民用,高分三号卫星都体现着重要的价值。为国家海洋局、民政部、水利部、中国气象局等部门提供服务,为其众多用户提供着高质量和高精度的稳定观测数据,使得我
核磁共振成像(Magnetic Resonance Imaging,MRI)是利用核磁共振现象从人体中获得电磁信号,并重建出人体信息的一项技术,成像原理复杂,所获取的图像信息量较大,在现代医学研究与临床诊断中占据着举足轻重的位置。随着数字成像的广泛应用,导致图像数据激增,显然仅依靠相关医生识别海量图像数据是耗时耗力的,长时间的工作也易引起漏诊误诊。为提升工作效率,计算机辅助诊断(Computer-