基于双层LightGBM集成模型的革兰氏阳性菌非经典分泌蛋白分类问题的探究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:wuhen_lu83
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
革兰氏阳性菌作为一种常见的致病菌,其分泌的蛋白能从细菌细胞质进入宿主细胞,发挥毒力破坏寄主细胞,进而引起组织坏死和病变。对分泌蛋白的深入研究有助于进一步了解细菌致病的机理和疾病的发病机制。在所有的分泌蛋白中,非经典分泌蛋白缺乏可识别的信号肽序列且分泌途径多样,识别工作要比经典分泌蛋白更为困难,因此如何准确地识别这些非经典分泌蛋白,成为了微生物学研究领域中一个有挑战性的任务。目前,随着人工智能领域的迅速发展,国内外出现了一些基于机器学习模型来预测革兰氏阳性菌非经典分泌蛋白的方法。但是这些方法的预测效果并不令人满意,主要是因为它们存在着以下不足:(1)数据集较小或者采用模拟数据,导致预测模型存在一定的偏差和盲区。(2)提取的蛋白质特征比较少,导致无法准确、高效地表征蛋白质信息与模式。(3)采用单一的机器学习模型,导致模型的预测性能存在瓶颈。
  针对以上不足,本文提出了一个基于双层LightGBM集成模型的革兰氏阳性菌非经典分泌蛋白预测方法,取名为PeNGaRoo。首先通过文献查阅和数据库检索的方式,收集和构建了一个实验验证的高质量数据集。然后从蛋白质序列本身、物理化学性质以及遗传信息三个角度出发,分析和比较了7种不同的特征编码方法,全方面提取了蛋白质的1374维特征向量。其次,本文引入了微软研究团队最新提出的LightGBM机器学习方法来训练模型,并提出了一种基于粒子群算法的多参数调整算法来进行必要的参数优化。为了进一步提升模型性能,提出了一种双层LightGBM集成模型,即每个特征集分别进行训练来构建基于单一特征的模型,并将以上的多个模型通过组间组内的集成策略来生成双层集成模型。相较于现有的预测器,PeNGaRoo在测试集上取得了更好的性能,其评估指标ACC为0.779,F-value为0.789,MCC为0.561,AUC为0.962。最后,为了使研究人员能够更便利、更高效、更广泛地使用PeNGaRoo,我们进一步开发了一个稳定运行的、开放的、负载平衡的预测网站并将训练好的模型部署上去。希望本文提出的集成学习模型可以加速微生物中的非经典分泌蛋白的发现和探索,为后续预测工具的开发提供新的思路。
其他文献
近年来,随着物联网技术(Internet of Things,IoT)的广泛应用,对基于位置服务的需求也迅速增加;尤其是对室内定位服务的需求,由于传统的GPS定位技术等不适用于室内环境,所以室内专用的定位技术成为研究热点。其中基于位置指纹的室内定位方法因为成本低廉,深受国内外研究者的青睐,但其存在如定位精度不高、定位速度较慢等缺点。针对此问题,本文研究了三种基于聚类的位置指纹室内定位算法,主要研究内容如下:
  (1)针对大型场所定位耗时长的问题,本文提出了一种基于层次聚类的快速室内定位算法。该算法
至真至善至纯至美,用这八个字来形容陈秋梅是再恰当不过了。陈秋梅是爱尔兰著名传奇音乐Jimmy MacCarthy的夫人,欧洲中国文化艺术交流与合作研究会和中外国际家庭联谊会会长,中国国际新闻杂志社爱尔兰分社社长兼首席记者。她像一杯香茗,茶香袅袅,清新可人。她质朴、谦和、睿智,是绽放在爱尔兰的一枝中国玫瑰,以其高贵的气质、大气的格局和坚韧不拔的个人魅力吸引着我们。   2021年,是中华民族伟大复兴
期刊
网络入侵检测作为网络安全的有效保障,已经成为重要的研究领域。随着传统机器学习技术和深度学习技术的发展,研究者们将其引入网络入侵检测领域作为海量数据分类问题的解决措施。近年来研究者们基于传统机器学习和深度学习提出了许多性能良好的网络入侵检测方法,然而,大多数方法在检测稀有攻击时表现不佳。针对网络入侵检测中稀有攻击难以被识别的问题,本文进行了三个方面的研究。
  针对网络数据中包含大量冗余信息,当攻击类别之间数据分布不平衡时,冗余信息会对稀有攻击模式产生影响的问题,本文提出了基于遗传编程算法与随机森林的
现实生活中,很多实际的优化问题都需要处理大量的决策变量,这称为大规模优化问题。虽然传统的计算智能方法在解决一些低维优化问题是有效的,但是,随着决策变量的增加,这些方法在求解大规模优化问题上性能退化,很难找到全局最优解。因此,将计算智能方法进行合理的、有效的改进来求解大规模优化问题显得越来越有必要。
  粒子群优化算法(Particle Swarm Optimization,PSO)是计算智能方法的一个分支,由于其原理简单、便于实现等特点,受到了许多学者的关注,将其广泛应用于解决优化问题和实际的工程问
说到豆腐,也可以算是一个国粹了。人们常说“青菜豆腐保平安”,豆腐在中国人生活中的意义可见一斑。但吃豆腐吃出名堂、吃出水平的要算平桥人,一道被称为“天下第一菜”的平桥豆腐,成为淮扬菜系中的著名佳肴,流传到江浙沪、北上广,甚至欧美海外,让那么多的人情有独钟,让那么多的人慕名神往,把豆腐文化发挥得那样的淋漓尽致。由此可见平桥豆腐这道菜肴的影响力以及它在豆腐美食家族中的地位。   在所有关于平桥豆腐的介绍
期刊
在智慧交通系统领域中,交通标志检测和识别是重要的研究课题,它可以辅助驾驶员或者自主驾驶系统掌握路况信息和明确驾驶行为限制,有效地保证驾驶安全、减少交通事故。然而,基于图像处理技术的传统检测方法存在较大局限性,难以适应复杂多变的交通场景,无法满足实际需求。随着深度学习的兴起,基于卷积神经网络的交通标志检测方法发展快速并逐渐成为了主流的研究方向,但仍然面临很多挑战。本文对交通标志检测存在的难点和现有方法存在的不足进行了回归和总结。针对交通标志检测存在的小尺寸、多尺度、相似外观、兼顾检测性能和效率等问题,本文提
随着物联网、大数据等信息技术在交通行业的广泛应用,传统交通客运开始向智慧交通转型升级,以向乘客提供更好的乘坐体验。其中,向乘客提供精准的公共交通动态换乘服务是实现城市智慧交通的重要环节,并由此对精准预测公交到站时间提出了迫切需求。然而,由于城市道路交通环境的复杂性,使得精准预测公交到站时间难度很大,成为影响动态换乘服务的关键。为此,论文研究了两种公交到站预测模型,以满足乘客不同需求下动态换乘服务对到站时间预测的需求。融合BP神经网络和公交车实时位置数据的公交到站时间预测模型(DTHC)能够针对某个时间点估
传统的图像修复方法往往基于纹理或者补丁传播的技术在图像像素层次填补缺失区域,然而这些方法无法应用于复杂的场景(比如人脸),并且这些方法无法感知图像深层语义信息。随着深度学习的发展,图像修复领域也在变化,基于深度学习的图像修复利用卷积神经网络提取图像深层语义信息对孔洞内容的进行重建。同时,生成对抗网络的提出以及发展为修复细节的质量提升提供了全新的思路。然而这些方法只针对具有固定大小的中心缺损区域图像进行修复,无法满足实际的生活场景,因为用户需要修复的区域不仅仅是固定的区域而是不规则的区域。同时这些方法生成的
大云山,位于今江苏省淮安市盱眙县马坝镇境内,大别山余脉,海拔73.6米,不高且坡緩无峰,但因与周边的小云山、青墩山相连,形如“北斗”,古时又有禹王河、衡阳河等水系环绕,且紧邻秦汉重要城邑———东阳城,因此成为了诸多皇家贵族身后必争的“风水宝地”。   2009年初,大云山因发生盗墓案件,因此启动了考古调查勘探,但随着调查勘探的深入,一座大型西汉诸侯王陵遗址逐步显露出来。同年,经江苏省人民政府批准,
期刊
由于我国经济的迅速发展,人们休闲娱乐的方式也越来越多,外出旅游也成为人们追求生活质量的重要方式。在旅游出行前,人们通常会在网上查找相关游览点的资料,制定详细的旅游计划。而随着旅游业的迅速发展,各地景点的不断开发,大型的景区越来越多,但是网上能搜到的景点信息只能精确到景区级别,所以通过用户在网上浏览景点信息的历史记录或是对景点的评分数据,只能获取粗粒度的游客偏好,而无法获取在景区内部细粒度的游客偏好。因此,如何获取景区内部的游客数据,从而学习出游客细粒度的偏好也成为了当前的一个研究热点。
  智能手机