基于ResC-LSTM的蛋白质亚细胞定位研究

来源 :浙江理工大学 | 被引量 : 1次 | 上传用户:wapp592
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是构成机体组织、器官的重要组成部分,在真核细胞的各个区室内承载着多种功能。蛋白质的功能取决于它所在的隔室或细胞器,因为它为其功能提供了生理环境。亚细胞定位是决定蛋白质功能注释的主要因素,使得复杂的药物设计成为可能;然而,异常蛋白质的亚细胞定位可以影响蛋白质表现出的功能,可能助长许多人类疾病的发病;如代谢,心血管和神经退行性疾病,以及癌症。因此,预测蛋白质的亚细胞定位作为一项重要研究内容,已成为生物信息学的热点课题之一。本文采用深度学习网络框架对亚细胞定位进行研究,具体研究工作如下:(1)在数据输入方面,考虑到蛋白质N-端序列对于亚细胞定位研究的重要性,本文在保留N-端特征的基础上,加入了残基统计特征,Go项注释特征,最近邻功能域特征,上述特征涵盖了 PSSM矩阵、GO项系数、伪氨基酸组成在内的多种特征,很好的表达了蛋白质序列的相关信息。最终相关特征整合为一维特征向量作为输入。(2)本文构建了一种新的基于ResC-LSTM深度学习网络框架,并用于蛋白质亚细胞定位。该ResC-LSTM框架是由Resnet,多尺度卷积CNN,双向LSTM整合而成,首先接受上述一维特征作为输入,使用多尺度卷积在输入特征上提取更多信息;随后通过Resnet的残差映射以及恒等映射有效的处理序列特征;最后利用双向LSTM充分处理数据特征,从而提高预测精度。针对模型参数方面的优化,本文使用交叉熵损失函数来降低离散数据的影响,并使用随机梯度下降算法对模型的超参数进行调优。(3)为了验证ResC-LSTM网络框架的有效性,本文在两个标准数据集(DeepLoc数据集以及Hoglund数据集)上分别进行测试,两个标准数据集进行交叉验证并且选择最优数据集作为本文的测试集以及训练集。经过多次实验,本文在十个位点的亚细胞定位上整体精度达到了 85.3%,得到结果优于现有算法。同时本文又利用本文框架在真菌、动物、植物数据集上分别进行测试并与其方法比较,结果表明ResC-LSTM框架在其他数据集上也具有较好的表现。最后,本文对蛋白质亚细胞定位的研究工作进行了总结,并对今后的工作进行了展望。
其他文献
研究目标:PI3K/AKT/mTOR信号通路异常激活会导致一系列复杂疾病的发生,这其中包括2型糖尿病和癌症。Notch基因在肝脏发育过程中起着关键作用,是胆道分化所必需的。有证据显示,AKT和Notch信号在人类肝内胆管癌(Intrahepatic Cholangiocarcinoma,ICC)临床样本中异常激活的比例大于50%。此外,有动物实验证明,AKT可以协同其它癌基因驱动ICC的发生,No
变循环发动机是一种高度复杂和精密的热力机械,区别于传统航空发动机,其通过可调部件的变化改善发动机各部件之间以及发动机与进排气系统之间的匹配,从而使得发动机能够更好
在通信领域需要信号处理应用都可以归结为求解线性最小二乘(Least Squares,LS)问题;这些应用包括系统辨识,信号检测,自适应天线阵列等。实际上,求解线性LS问题等同于求解线性
作为一种能保障端到端可靠传输的机制,TCP协议成为了互联网中应用最为广泛的传输层协议。但TCP协议在面对数据丢包时,会触发拥塞控制机制,降低发送速度。这种应对机制在有线网络和链路质量较好的无线网络中,由于误码率低、丢包少,拥塞控制机制处理丢包对整体传输性能的影响小。但在恶劣的无线网络环境中,例如高铁车地无线网络传输环境下,由于链路快变、多普勒效应、频繁的越区切换、网络信号不稳定等因素,导致链路传输
目的:明确老年胆胰疾病患者行治疗性ERCP的安全性、有效性,并评估患者术后2周及术后1个月的生活质量改善情况。方法:收集承德市中心医院普外科2016年10月至2018年12月行治疗性ERCP的胆胰疾病患者的病历资料,按年龄(联合国世界卫生组织定义75岁以上为老年人)将患者分为A、B两组,其中年龄小于75岁的患者为A组(年轻组),年龄大于等于75岁的患者为B组(老年组),比较两组患者手术操作时间、结
背景:镁及镁合金在密度及弹性模量上与人体的骨密质相接近,而且医用镁及其合金有良好的可降解性,作为骨内固定材料植入体内可自然降解,无需二次取出,生物活性优异,能够在骨折愈合初期提供良好的力学环境,易于骨组织生长。但镁的耐蚀性差,植入体内降解速度快,难以达到良好的固定效果,并在腐蚀过程中产生大量氢气,导致植入体过早地丧失生物功能性。将镁合金用微弧氧化技术进行表面处理,使镁合金(AZ31)表面陶瓷化,以
纱线在编织过程中无可避免地会出现断裂、缠绕等现状。因此需要对圆纬机编程过程中的纱线状态进行监测。一台圆纬机包含多路纱线输送,每路纱线输送并不是连续进行。因此圆纬
跳频通信因为良好的抗干扰性和低拦截概率,在保密通信领域,特别是军事通信领域得到了广泛的应用。在通信电子对抗环境中,将跳频技术运用到短波通信中不仅可以有效地克服多径干扰,还对邻近干扰和人为对抗式干扰有着良好的抑制作用,因此已经成为提高通信抗干扰性的最有效措施。对于通信对抗双方而言,如何快速有效地获取对方的跳频信息关系着战争局势的走向,对于最终取得战争的胜利有着至关重要的作用。跳频通信中的跳频信号是一
随着云计算技术的飞速发展与普及,云环境中的应用越来越复杂多样。如何减轻虚拟化环境中应用之间的资源竞争成为研究热点。Docker的出现推动了容器技术的发展,相比于虚拟机,容器这种操作系统级虚拟化技术具有更低的性能开销,然而共享内核却导致容器具有更差的隔离性。具体地,传统的中心化文件系统存在着大量资源(如保护全局数据结构的锁)竞争,这使得容器中的文件系统操作在并发访问这些数据结构时会相互影响。同时,容
生物质能是一种储量丰富的可再生能源,纤维素是生物质的重要组分,其热解机理的研究有利于提高生物油的质量。在纤维素热解的研究中,常需要对初生态产物进行分析,然而传统的热解设备在热解过程中难以避免二次反应,难以得到初生态产物。金属网反应器是目前二次反应最小的反应器,经过多年的发展和改进后,在减小二次反应的性能上有了多次的提升。本文使用ANSYS CFX建立了金属网反应器中焦油收集管内的流动模型,对三种常