基于机器学习的膜蛋白胞外域脱落预测方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:linxain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
膜蛋白在现代医学中起着至关重要的作用。最近研究表明,一些胞外域脱落的膜蛋白可以作为疾病的潜在药物靶标和生物标志物。然而,目前能够预测膜蛋白胞外域脱落的有效工具仍然较少,因此,有必要开发能够高效地预测膜蛋白胞外域脱落的工具。本文首先使用传统机器学习技术,提出了一个基于支持向量机(support vector machine,SVM)的模型来预测膜蛋白胞外域脱落。为了确保性能比较的公平性,本文使用已有研究中的数据集,并且对数据集中的每个蛋白质使用不同的工具计算蛋白质的属性特征,进而对于每个蛋白质可以得到由1523维特征元素组成的34种特征。然后,使用两阶段特征选择算法剔除不相关和冗余的特征元素,进而选择更多相关的特征元素。在第一阶段中,使用改进的最小冗余最大相关(minimum redundancy maximum relevance,mRMR)特征选择算法剔除不相关和冗余的特征元素;在第二阶段中,使用支持向量机递归特征消除(support vector machine-recursive feature elimination,SVM-RFE)算法对第一阶段得到的特征元素进行进一步排序。最后,选择前127个特征元素,并使用这些特征元素训练支持向量机分类器。通过实验,基于支持向量机的模型可以达到78.10%的准确性、75.26%的敏感性和80.95%的特异性,而已有模型的三项指标分别为71%、75%和67%。此外,对于两个独立的正测试集,基于支持向量机的模型的敏感性分别为89.47%和83.98%,而已有模型的敏感性分别为73.68%和65.80%。实验结果验证了本文提出的基于支持向量机的模型对于膜蛋白胞外域脱落的预测性能要高于已有模型。同时,本文还进一步使用双向长短期记忆网络(bidirectional long short-term memory networks,Bi-LSTM)和注意力机制构建了一个基于深度学习的模型来预测膜蛋白的胞外域脱落情况。首先,对于每一个蛋白质序列使用基于位置特异性迭代的基本局部比对搜索工具(position-specific iterated basic local alignment search tool,PSI-BLAST)在Uniref50数据集上进行比对分析,并从这些蛋白质的原始序列中得到位置特异性打分矩阵(position-specific scoring matrix,PSSM)。然后,使用含有记忆单元的双向长短期记忆网络来获取蛋白质序列远距离的关系,使用注意力机制获取蛋白质序列中的分类信号。在模型的训练过程中,使用Dropout、L2正则化和Bagging集成学习技术降低模型训练中过拟合的程度。通过实验,基于深度学习的模型的预测性能分别可以达到81.19%的准确性、77.32%的敏感性和85.04%的特异性,其预测性能要高于已有的预测模型和基于支持向量机的预测模型。此外,在测试集中使用本文提出的基于深度学习的预测模型,其准确性、敏感性和特异性分别可以达到83.14%、84.08%和81.63%,而已有模型的准确性、敏感性和特异性分别为70.20%、71.97%和67.35%。因此,本文认为,本文提出的基于深度学习的模型可以作为更为准确地预测膜蛋白胞外域脱落的模型。
其他文献
目的:探讨细粒棘球绦虫原头节和泡状棘球绦虫原头节体外培养的理化性质变化规律。方法:1.细粒棘球蚴原头节的采集:从感染囊型包虫病的羊肝脏病灶中提取新鲜的细粒棘球蚴原头节,处理后伊红染色,显微镜下观察原头蚴的活性并进行计数。活力达98%以上的方可进行下一步的培养及测定。2.细粒棘球蚴原头节的分组:将计数后的细粒棘球蚴原头节按照密度分为4组,分别加入装有15ml培养基的培养瓶中,此培养液和泡球蚴培养液为
《生活与哲学》是高中思想政治课程体系的重要组成部分,旨在帮助学生正确地看待自然、社会和人生,正确认识社会实践的巨大作用,正确地进行价值判断和价值选择,形成正确的世界观、人生观和价值观。榜样教育在传递社会主流价值观、弘扬社会正气、提高思想道德素质方面发挥着重要作用。在高中《生活与哲学》教学中融入榜样教育,将抽象的哲学原理与具体的榜样人物事迹相结合,能够更好地实现对学生的价值引领,提高学生的思想道德水
随着我国经济的不断发展、对外开放的程度越来越高。中国的企业拥有着更为广阔的发展空间,企业大多朝着大型化、跨国化方向迈进,母子公司这一形式也随之出现并得到了迅猛的发
证据特免权(evidentiary privilege)又称为“证据特免权”、“保密特权”,证据特免权权利人不仅享有隐瞒某些证据的权利,还有权要求他人不得披露此类信息,其本质是为了保护某些社会公共利益,此时保密或不披露该证据的价值高于发现真相。对于受证据特免权保护的证据,ICSID仲裁庭不能命令证人或当事人出示该证据,也不应采纳他人恶意披露的此类证据。证据特免权是证据开示(discovery)的例
动态共价交联聚合物是一种兼备热塑性和热固性聚合物特点的新型聚合物体系,该体系在具有良好网络稳定性的同时,又具备着可塑性的特点,因此在自修复、重加工、以及3D打印等方
由于水下结构物形式、入水速度等因素的不同,结构物入水过程异常复杂,工程中下放结构物通过飞溅区的研究更为迫切。依托实际工程项目,分析具体水下结构物组成单元,得到楔形体
目的:分析比较退变性和峡部裂腰椎滑脱的解剖学参数的特点;探究腰椎滑脱(lumbar spondylolisthesis LS)进展过程中的解剖学高危因素;探讨退变性和峡部裂腰椎滑脱代偿机制的差异。方法:选取我院自2017年9月至2019年6月收治的87例有完整影像资料的LS患者为观察对象(滑脱组),滑脱组病椎均取单节段腰4椎体。其中男30例,女57例;年龄在38-74岁,平均为57.94±8.74
我国职教集团的办学理念最早出现在上世纪90年代,在2002年《国务院关于大力推进职业教育改革与发展的决定》的发布标志着职业教育集团进入发展元年,2005年国务院发布《国务院关于大力发展职业教育的决定》之后职业教育集团步入发展的快车道,全国目前为止各类职教集团将近2000家,各行业参与单位近两万家,各类职教集团在快速发展中,也出现了很多亟待解决的问题。本文研究旨在寻找职教集团未来发展的方向,总结职教
巢湖是我国大型淡水湖泊中水体富营养化最为严重的湖泊之一,高负荷的氮素污染成为困扰湖泊富营养化治理的重要难题。巢湖流域大多为低矮丘陵岗地类型,河流水系发达,水塘洼地
开州区,隶属重庆市,地处渝、川、陕、鄂特殊的文化融区,根植于秦巴文化的交融地,所以开州民歌在旋律、节奏、节拍、音域、音型等音乐元素上,呈现出多元化的格调,突显了恢弘的地方特色。但开州民歌目前的发展状况不尽如人意,当地政府及文化馆意识到此问题,开始进行民歌抢救,发掘濒临流失的民歌,对已有的作品进行创新、改编,以赋予新的生命力。同时组织演员参加电视节目、歌曲比赛,开展交流活动,致力推广开州民歌,均取不