基于序列信息的荷尔蒙连接蛋白预测算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zyf008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
荷尔蒙连接蛋白(HBP)可以选择性地、非共价地与荷尔蒙蛋白(HP)相互作用,从而充当HP的调节剂或抑制剂。准确地识别HBP也为正确理解细胞生长、发育和功能机制提供重要的前提保障。传统识别HBP的方法通常要通过复杂的生物学实验,耗时耗力且速度缓慢。近几年来,为了改善这个弊端,科研人员开始尝试使用机器学习的方法来识别HBP,使得这种缺点得以改善。但是,不同的机器学习算法有着不同的预测效果,绝大多数的算法预测效果不尽如人意,分类能力有待提高。因此,本文通过尝试多种算法,搭建多种预测模型,使用交叉验证的方法与常用评价指标进行评估的方式,从众多模型中选取出具有最优预测效果的模型作为最终的HBP预测模型。本文从Uniprot数据库下载了一套HBP原始数据,通过严格的筛选构建出了一组精准的基准数据集。我们尝试了多种特征提取方法,利用支持向量机(SVM)分类算法对HBP与non-HBP(非HBP)进行分类,并基于5-折交叉验证评价模型的性能,产生了如下的结果:(一)使用CTD方法提取HBP序列中氨基酸位置、组成与分布等信息,最终得到60.16%的总成功率;(二)使用自然矢量法(NV)提取HBP序列中的氨基酸个数、平均位置与二阶归一化中心矩等信息,最终得到70.33%的总成功率;(三)使用g-gap二肽组份(g-gap)方法提取HBP序列中二肽成份信息,最终得到72.76%的总成功率;(四)使用伪氨基酸组份(PseAAC)方法,将氨基酸的物化性质融入进来,提取HBP序列中的氨基酸组成、长短程相关等信息,最终得到76.83%的总成功率;(五)使用三肽组份(TPC)方法提取HBP序列中的三肽成份信息,最终得到72.36%的总成功率。以上所构建的模型的预测能力有限,分类精度偏低且仍有一定的提升空间,考虑到这是由于特征冗余所引起的。因此为了去除高维度特征(g-gap特征、PseAAC特征与TPC特征)产生的冗余或噪声信息,我们引入了方差分析方法(ANOVA)与二项分布方法(BD)对特征进行筛选,并应用特征增益过程(IFS)构建特征子集,利用SVM分类算法对HBP与non-HBP进行分类,并基于5-折交叉验证评价模型的性能,得到了如下的结果:(一)使用ANOVA方法对g-gap特征进行筛选,最终得到了最高的总成功率为80.89%;(二)使用ANOVA方法对PseAAC特征进行筛选,最终得到了最高的总成功率为84.15%;(三)使用BD方法对TPC特征进行筛选,最终得到了最佳的总成功率为97.15%。与已有的模型相比,本文所提出的该模型具有最好的预测效果,且鲁棒性最佳。为了方便广大科研人员使用该HBP预测模型,我们搭建了一个用户友好的在线服务器HBPred2.0(http://lingroup.cn/server/HBPred2.0),我们确信HBPred2.0将为HBP研究工作提供有力帮助。在未来的工作计划中,伴随着蛋白质序列数据以井喷式的速度涌进数据库,深度学习在大数据量问题展示出的强大学习能力值得借鉴,例如Inception神经网络、ResNet神经网络和卷积神经网络的使用势必对HBP的预测提供更加有力的帮助。
其他文献
评价问题的多目标优化方法研究具有十分重要的理论意义和应用价值.由于评价对象具有个体差异性,因此如何对评价对象进行合理分类,进而依据分类结果对其进行科学评价是大规模评价问题中的关键问题之一.本文首先针对Tzortzis和Likas提出的聚类算法进行改进,提出了一类新的改进的K-means算法,进而利用改进的K-means算法对大规模评价问题中的评价对象进行分类,通过引入分值转换函数和满意度函数,构建
桥梁工程作为交通工程的重要分支,在交通建设中占据重要地位,而作为支撑桥梁结构的桥梁桩基础稳定性则直接关系到整座桥梁的稳固与安全。受施工水平、施工环境和自然灾害等因
十九世纪末二十世纪初,法国人出于掠夺云南丰富资源的目的,修建了一条连接中国昆明和越南海防港的铁路,即“滇越铁路”。这条铁路打破了中国云南落后封闭的自给自足的自然经济状态,标志着云南对外开放的历史及现代化之路的开始。滇越铁路沿线建造了一系列的服务性用房,即站房建筑,其形态特征表现出与当地民居迥异的建筑风格,因其设计者是法国人而被称为“法式建筑”。滇越铁路于2018年入选第一批“中国工业遗产保护名录”
Li NixCoyMn1-x-yO2三元材料以其能量密度高、循环稳定性好且平台稳定等优点,成为电动汽车和储能领域的主流关键材料。随着其需求量和产量的逐年增加,会井喷式产生大量的废旧
目的本研究将内脂素基因敲除小鼠结合血管紧张素(AngⅡ)微型渗透释放泵,从细胞水平与分子水平上观察内脂素对心肌肥大的影响,从而探讨内脂素在心肌肥大中发挥的作用。方法1、
由于熵可反映信息的模糊混乱程度,相似性测度可反映不同信息系统间的接近程度,熵和相似性测度成为近年来二型模糊集,二型直觉模糊集理论及应用领域重要的研究方向.目前二型模糊熵的构造,以及将二型模糊熵引入决策模型中,用于选取最优方案仍值得研究.现有二型模糊集的相似性测度公式存在计算量偏大,区分数据差异性的能力较弱等问题,继续探讨二型模糊集的相似性测度是必要的.同时二型直觉模糊集具有更强的不确定性,其在决策
在野外采集过程中,受到复杂施工条件的影响,噪声可能会混入甚至压制采集到的有效信号,造成地震数据信噪比的降低;另外由于禁采区、障碍物等对施工的影响,采集到的数据可能会
控制沉积物内源污染,防治水库湖泊等水体富营养化的问题一直受到国内外学者的高度关注,采用挂膜沸石覆盖法进行底泥修复是有前景的原位处理技术。但如何提高挂膜沸石覆盖层的
哺乳动物中,Ⅱ型干扰素(Type II Interferon)是机体免疫细胞受到干扰素诱生剂刺激后所产生的一类糖蛋白,在抵抗胞内细菌感染和病毒的过程中发挥着重要的作用。目前自然界中共发现两种Ⅱ型干扰素——IFN-γ和IFN-γrel,其中IFN-γrel为鱼类所特有。鱼类IFN-γ与低等脊椎动物IFN-γ的同源性较高,对其进化历史的研究较为完整。然而,关于IFN-γrel的起源、在鱼类进化过程中的
随着社会经济的不断发展、工业化水平的不断提升,越来越多的多环芳烃类化合物排放到环境介质中,严重危害着环境质量和人类的安全,因此近年来世界各地对多环芳烃及其衍生物的