基于PsePSSM的蛋白质-ATP结合位点预测与膜蛋白分类

来源 :湖南农业大学 | 被引量 : 0次 | 上传用户:golf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质序列特征提取是生物信息学研究中的关键环节。基于内容的氨基酸组分特征K-mer是常用的蛋白质特征提取方法,但对较短序列存在特征表达稀疏的缺陷。伪氨基酸序列进化信息(PsePSSM)源自位置特异性得分矩阵(PSSM),能反映序列进化信息且适于不等长序列,但其容错性优点尚未引起足够重视。本文将PsePSSM应用于蛋白质-ATP结合位点预测和膜蛋白分类,结果报道如下:基于伪氨基酸序列进化信息的蛋白质-ATP结合位点预测。蛋白质-ATP结合位点预测是高度不均衡的二分类问题,通过机器学习高精度预测蛋白质-ATP结合位点对研究蛋白质功能和药物设计意义重大。其样本序列等长、现有研究多经验性地选取窗口长度17aa、以位置特异性得分矩阵(PSSM)提取特征、用支持向量分类(SVC)建模预测,其独立预测Acc虚高、MCC偏低,预测精度尚有较大提升空间。本文以互信息I确定窗口长度为15aa、以更具容错性的PsePSSM提取特征、以相同正样本不同负样本构建多个1∶1 SVC分类器、最后进行简单投票,对两个蛋白质-ATP结合位点数据集ATP168与ATP227均获得了明显优于参比特征提取方法的独立预测结果,其MCC值分别从0.3110~0.5360、0.3060~0.553提升至0.7512、0.7106。进一步,我们阐明了PsePSSM容错性强的原因。基于伪氨基酸序列进化信息的膜蛋白分类预测。膜蛋白分类预测是一个典型的蛋白质序列不等长、多分类问题。PsePSSM能有效解决序列不等长问题,因本文所用数据集中最短序列为50aa,取最大间隔距离为25aa,则每条序列可用520个PsePSSM特征表征。以SVC建模预测,其独立预测精度Acc为66.86%。特征选择往往可降低模型复杂度、提高预测精度;采用可自动终止特征引入的特征选择方法MIC-share,获得了一个包含16个保留特征的最优特征子集,其独立预测精度Acc为86.41%,较未实施特征选择有大幅度提升。进一步讨论了OVO(一对一)、OVA(一对余)、HC(层次分类)等三种多分类转二分类策略对预测精度的影响。反映序列进化信息、适于不等长序列、容错性强的PsePSSM在蛋白质序列特征提取方面有广泛应用前景。
其他文献
目的:以切除的儿童腺样体组织作为标本,采用免疫组化法来检测不同疾病患儿腺样体组织中Toll样受体4(Toll-like receptor 4,TLR4)、白介素-6(Interleukin-6,IL-6)和白介素-35(
[背景]糖尿病慢性难愈性溃疡是指糖尿病患者由于机体长期慢性高血糖导致皮肤软组织血运障碍、神经病变,在皮肤受损情况下容易造成创面3个月以上迁延不愈。皮肤作为人体的第一
相较于清末民初,进入五四时期的包天笑,文学活动已经有了明显的转向。之前着力于西方文学作品的翻译,而此一时期更加注重文学作品的创作,其中家庭小说是他文学活动转向后的重
黑素瘤是一种主要发生在皮肤的高度恶性肿瘤,其病程进展快、侵袭能力强、对放化疗不敏感,且预后极差。因此,早期诊断和治疗是降低死亡率的关键。那么,建立合适的动物模型来研
目的:椎板关节突螺钉固定可靠、创伤小、花费少、可避免对侧椎旁肌的剥离,有着良好的应用前景。但该术式技术含量高,操作难度大,尤其是椎板关节突螺钉微创经皮置入技术,往往
癌症因其高患病率及致死率一直受到人们的密切关注,近年来,科学家们在癌症的治疗方法上有了新的进展。光疗法是一种非侵入性治疗技术,具有远程可控性,改善选择性和低系统毒性
岷县“巴当舞”是流传于甘肃省定西市岷县一带的一种古老的祭祀舞蹈,是当地重要的社会文化活动内容和民族体育形态之一。随着岷县“巴当舞”获批列入国家级非物质文化遗产名
目的:通过扩散峰度成像在多发性硬化颈髓损伤中的应用,探讨扩散峰度成像参数是否能够定量分析颈髓早期损伤、评估临床残疾程度和监测疗效。方法:选取多发性硬化患者48例,平均
随着三维预成型技术的日益成熟及机械自动化程度的不断提高,以异型三维预成型体为增强骨架的编织复合材料作为主承力构件和功能构件被广泛应用于航天航空、军事防护、交通运输和海洋等领域。异型三维编织复合材料的成型方式多种多样,无论编织工艺如何变化,都会使其细观结构具有一定的非周期性,在受到外力时也会在非周期区域形成应力集中;同时在复合过程中,纤维束受到外力挤压变形使细观结构发生变化,从而影响材料的力学性能。
目的:通过控制氧气含量模拟正常髓核细胞的低氧环境,研究探讨低氧环境能否诱导大鼠髓核细胞发生自噬,并进一步研究低氧状态下髓核细胞中缺氧诱导因子-1α分子的表达量与LC3、