基于SHAP特征选择的蛋白质-DNA结合热点残基预测

来源 :安徽农业大学 | 被引量 : 0次 | 上传用户:zerotx01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质与DNA通过彼此之间的相互作用在有机体内参与众多的生命活动过程,包括基因的表达,DNA的装配与修复等。研究发现蛋白质-DNA相互作用的结合自由能主要由小部分的结合氨基酸残基(热点残基)提供,因此对蛋白质-DNA结合热点残基的研究与识别具有重要意义。其不仅能帮助阐述蛋白质-DNA相互作用的发生机制,更有助于治疗蛋白质-DNA相互作用发生紊乱而引起的相关疾病。虽然可以通过丙氨酸扫描突变实验技术鉴定蛋白质-DNA结合的热点残基,但实验方法耗时耗力,花费不菲。因此开发高效准确的计算方法用于识别蛋白质-DNA的结合热点残基,可以对实验起到补充和指导作用。虽然研究人员已经开发了几种方法用于蛋白-DNA界面热点残基预测,但是所用的数据集较小,其泛化能力难以得到有效验证。在本文的研究中,首先从db AMEPNI数据库中搜集到了一部分蛋白质-DNA结合热点残基数据,然后从最新发表的文献中挖掘出db AMEPNI数据库未收录的一些蛋白质-DNA结合热点残基数据,将两部分数据整合作为本研究的蛋白质-DNA相互作用界面丙氨酸突变效应数据集。然后基于蛋白质的三维结构,本研究计算了残基的物理化学特征和结构特征,得到了包含117维的高维特征矩阵。为了得到与蛋白质-DNA相互作用热点残基相关性更高的特征,从而进一步提升模型的预测效率和精度,使用了SHAP特征选择方法,从高维特征矩阵中选择最优的特征子集。以最优特征子集作为输入数据,使用了包括SVM、XGBoost以及RF在内的三种不同的机器学习算法建立预测模型。通过上述工作得到本研究的结果为:(1)训练集上5折交叉验证的结果表明基于SVM的模型获得了最优的精度。(2)独立测试集的预测结果表明该模型有较强的稳定性和较高的泛化能力。(3)与已有计算方法的比较说明本研究的模型获得了最高的MCC值(0.2837)和AUPRC值(0.5241)。这些结果表明本文的方法优于现有预测器,有希望成为一款有效的蛋白-DNA结合热点残基预测工具,在多个方面如相关药物靶点的设计上提供帮助。
其他文献
蜘蛛是烟田主要的天敌,合理运用以蛛治虫成为了一种有效的生态防控手段。但烟草大田生长期烟叶上蜘蛛卵囊的附着影响烤烟的品质,故需要对烟田蜘蛛群落及卵囊进行合理调控。目前,烟田蜘蛛群落及卵囊等相关的研究报道较少。本研究为明确皖南烟田蜘蛛群落结构特征,运用群落生态学研究方法,系统分析了皖南烟田蜘蛛群落及其卵囊的动态变化,为皖南烟草的可持续发展奠定基础。结果如下:1.烟田蜘蛛群落组成烟田蜘蛛群落由结网型蜘蛛
学位
草地贪夜蛾(Spodoptera frugiperda)能够进行远距离迁飞,并且繁殖能力强,田间发生容易造成作物严重减产。草地贪夜蛾于2019年初入侵至我国,造成玉米等多种作物的粮食安全出现问题。本文以氯虫苯甲酰胺和茚虫威为对象,研究了背负式电动喷雾和无人机喷雾2种药械叶面喷雾下对玉米草地贪夜蛾的田间防效及其对玉米产量的影响;明确了氯虫苯甲酰胺和茚虫威药剂在背负式电动喷雾和无人机喷雾2种药械叶面喷
学位
最新发现的严重急性呼吸综合征冠状病毒2(SARS-Co V-2)是导致人类严重呼吸道感染的冠状病毒中最后被发现的成员。SARS-Co V-2有四种主要的结构蛋白,分别为核衣壳蛋白(N蛋白)、刺突蛋白(S蛋白)、膜蛋白(M蛋白)和包膜蛋白(E蛋白)。N蛋白作为冠状病毒的主要结构蛋白,在调控病毒复制和转录过程中的RNA合成等方面发挥着重要作用。由于N蛋白序列的保守性和在感染过程中的高度免疫原性,常被用
学位
甘蓝(Brassica oleracea L.var.capitata L.),原产于地中海沿岸,目前,在中国广泛种植,年种植面积约90万hm ~2,其体内含有多种对人体有益的物质,并且对防治癌症和心脏病具有显著效果。乌塌菜(Brassica campestris L.ssp.chinensis var.rosularis),为十字花科芸苔属芸苔种白菜亚种的一个变种,是冬季最主要蔬菜之一。由核盘菌
学位
β-羟基硫化物在有机合成中间体的制备和天然产物衍生化研究方面是重要的结构分子,具有较大的发展潜力。在已报道的工作中,烯烃的羟硫化反应是高效制备β-羟基硫化物及其衍生物的方法。这类方法中富电子烯烃参与制备的策略已经发展得较为成熟,而缺电子烯烃羟硫化反应还存在着一些挑战,比如要在氧气氛围下进行、需要金属催化剂或还原剂抑制反应过氧化生成β-羟基亚砜、砜的副产物。本文围绕无金属催化剂、还原剂由空气中氧气引
学位
草地贪夜蛾Spodoptera frugiperda,已成为我国农业生产的一个重要害虫,寄主广泛,危害多种作物,造成重大经济损失。寄主植物是影响昆虫肠道微生物的一个重要因素,草地贪夜蛾肠道微生物关于这方面的研究极少。由于昆虫和肠道微生物之间相互作用,肠道微生物也会影响昆虫的生长发育。因此,本文利用16S r DNA和ITS高通量测序技术探究取食不同寄主的草地贪夜蛾肠道微生物多样性,同时饲喂抗生素改
学位
Ugi反应是构建高价值多肽骨架具有原子经济性和步骤高效的合成策略。目前,创建结构多样的新手性催化体系以及发展Ugi四组分反应的不对称催化新方法仍然极具挑战性。本论文中,我们利用金属中心手性钴(Ⅲ)配阴离子作为催化剂,发展了一种不对称催化Ugi四组分反应的新方法。具体内容如下:针对四组分Ugi反应立体控制难的问题,本文探索了羧酸参与的不对称Ugi四组分反应,通过反应温度、溶剂以及催化剂的筛选,最终优
学位
在自然界与实际工业过程中,存在一类具有正性的特殊系统,我们通常称之为正系统。对于正系统而言,当系统初始状态为非负时,系统的状态向量和输出向量都将保持非负。根据不同的划分标准,可将其划分为线性正系统、非线性正系统、一维正系统、二维正系统、离散正系统、连续正系统等多种类型。经过几十年的发展,正系统已广泛应用于生态学、化学、经济学、生物医学等诸多领域。基于此,正系统已受到了国内外众多学者的广泛关注。社会
学位
金黄色葡萄球菌(Staphylococcus aureus,简称金葡菌)引发食物中毒事件的屡屡发生让科研工作者开始逐步对其展开研究。据了解金葡菌能在动物皮肤、纺织品以及医疗器械表面粘附生存引发多种感染性疾病,也能在食品加工设备表面长期潜伏,从而引发食物中毒。目前金葡菌的致病机理研究一直是研究热门,然而其耐受逆境的机制研究却存在空缺。绝大多细菌都难以在干燥环境中生存,因此食品生产加工过程经常采用干燥
学位
鬼针草属外来入侵植物在安徽的入侵危害呈加剧趋势,但相关调查研究甚少。本文运用植物生态学的相关方法,对安徽省安庆市、铜陵市、合肥市等典型区域展开鬼针草属(Bidens)入侵植物调查,并进行果实萌发、生长特性与防除试验,以期对安徽省鬼针草属入侵植物的防控提供基础资料。主要研究内容及结果如下:(1)野外调查以县(区)为调查单元,以乡、镇为调查样点,共调查17个调查单元,76个样点,351个样地,340个
学位