基于卷积神经网络的蛋白质折叠类型最小特征提取

来源 :南京大学 | 被引量 : 0次 | 上传用户:ddlin2121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质宇宙是包含了所有生物体中全部蛋白质的集合,它将不同蛋白质的序列、结构和功能联系在了一起。通过利用实验获得的蛋白质序列、结构等信息构建完整的蛋白质宇宙是生物信息学中的重要课题,其对蛋白质结构预测、蛋白质进化路径分析以及蛋白质结构设计等方面的研究都有着重大意义。蛋白质结构空间是蛋白质宇宙的一个表示形式,人们通过在其中建立起层级结构、图结构和网络结构,在不同蛋白质的序列、结构和功能之间建立了联系。本文从蛋白质结构的一种简化表示——蛋白质接触图出发,通过训练卷积神经网络进行特征提取,筛选出可识别结构域折叠类型的最小特征向量,获得了蛋白质折叠类型的最小表示,并使用谱聚类等方法对不同蛋白质类的折叠类型高维分布情况进行分析,构建了蛋白质折叠类型空间。我们得到的最小特征向量兼顾了信息的完整性与冗余度,可以很好的表示全部7种常见蛋白质类的空间关联。本研究的结果填补了之前蛋白质宇宙研究中对不常见类的空间位置和相互关系描述的空白,加深了对于蛋白质结构相似性的理解。在具体的研究过程中,我们使用深度卷积神经网络作为核心特征提取方法。通过对网络模型进行修改,使得其可以提取出蛋白质结构信息中对于类和折叠类型识别有着重要作用的部分,从而更好地将属于不同结构分类的结构域分离开。为了寻找折叠类型的最小表示,我们通过对模型中特征层神经元数量进行限制,构建了多个网络模型并通过不同方法对提取出的折叠类型表示进行评估。评估结果表明,长度为8的特征向量完整包含了折叠类型识别的所需信息,在聚类中各个类标签的代表簇分离顺序与人们对结构相似性的直观理解一致,是蛋白质折叠类型的最小表示。同时,在4维附近存在蛋白质折叠类型表示的临界维度,不同类的折叠类型在空间中基本分离。在获得折叠类型的最小表示之后,我们使用主成分分析将其投影到三维空间,给出了折叠类型空间的直观展示。在此空间中,分属于各个类的折叠类型在空间中均占据属于自己的区域,其相互之间界限较为明显,使用折叠类型的代表特征向量进行聚类的结果与真实类标签之间吻合程度较高;同时该空间不仅仅包含在之前研究中经常出现的Allα类,Allβ类,α/β类和α+β类,未曾详细涉及的多结构域蛋白类,膜蛋白类和小蛋白类都在空间中找到了属于自己的位置,使研究它们在蛋白质宇宙中的关系成为可能。同时,该折叠类型图也将将高维空间中折叠类型的分布特征直观地展现出来。本论文整体内容安排如下:第一章对蛋白质宇宙、蛋白质折叠类型识别和深度学习技术进行了简要介绍,阐述了本论文的研究背景;第二章具体介绍了论文中所使用的研究方法与构造的结构参数;第三章讨论了我们获得蛋白质折叠类型最小表示的具体过程以及其在高维空间中的分布形式,给出了直观的三维展示;第四章是对全文的总结与对未来研究的展望。
其他文献
[目的]研究髁突软骨中瘦素(leptin)表达水平与小鼠颞下颌关节骨关节炎(temporomandibular joint osteoarthritis,TMJOA)样病变过程之间的相关性及其相关机制。为未来颞下颌关节骨关节炎发病机制的研究提供新的方向。[方法]1.选择12只8周龄雄性C57BL/6小鼠,将小鼠随机分成实验组和对照组各6只,实验组小鼠采用本课题组自主设计的颞下颌关节压应力加载动物模
共享单车利用移动通讯与GPS定位系统的集成实现了用户的自由存取。这不仅革新了城市居民出行方式,也弥补微观尺度下慢行交通数据采集困难的状况。这一方面意味着,传统城市分析方法面临变革,急需尽快形成与大数据遥相呼应的分析方法;另一面则暗示着,城市交通流的变迁将会对城市公共交通以及城市空间规划产生一定影响,孕育着居民出行方式的重大变革。如何提取和利用共享单车海量而详细的新型OD空间大数据,已成为当下智慧城
目的:探讨使用中效糖皮质激素治疗原发性肾病综合征期间,类固醇糖尿病的发病率、临床特点及危险因素。方法:2011年1月至2015年12月,南京总医院国家肾脏疾病临床医学研究中心收治的原发性肾病综合征患者共2986例[包括局灶性节段性肾小球硬化症(FSGS)、微小病变肾病(MCD)、足细胞病、IgM肾病(IgMN)],纳入糖皮质激素起始剂量≥30mg/d(泼尼松量),持续时间≥4周,门诊随访时间≥1月
目的:通过建立SD大鼠心肌缺血再灌注损伤模型及原代心肌细胞缺/复氧损伤模型,研究比索洛尔后处理对心肌细胞线粒体自噬及线粒体分裂的作用,并通过应用自噬抑制剂氯喹及慢病毒低表达Drp1的方法,观察比索洛尔对线粒体自噬通路Drp1/Pink1/Parkin的影响,探讨比索洛尔对缺血再灌注/缺氧复氧诱导的心肌细胞损伤的保护作用机制。方法:1.实验一:探讨比索洛尔后处理对SD大鼠心肌缺血再灌注诱导的心肌细胞
背景:心力衰竭是各种器质性心脏病的最终临床结局。随着中国老龄化加重,心衰已成为一种高发病率、高致死率的疾病。据统计,我国心力衰竭患病率为0.9%,心力衰竭总人口超过1200万。心力衰竭患者常因症状加重而需反复入院治疗,约25%的患者在出院后一个月内再次住院,约50%的患者在出院后6个月内再次住院。目前部分起搏器可以连续远程监测患者24小时平均心率、休息时心率及患者活动度等反映心衰情况的参数,同时也
声表面波气体传感器广泛的应用于各种领域,且未来的需求量巨大,本文主要研究基于石墨烯敏感层的声表面波氢气传感器。在LiNbO3压电基底上,生长氧化还原石墨烯(RGO)敏感层,并利用铂(Pt)作为催化剂,研制成高灵敏度氢气传感器,用于痕量氢气检测。论文主要分为下面五个部分:第一章:介绍了声表面波传感器的基本概况及石墨烯的特性,分析了石墨烯作为氢敏材料的优势以及在声表面波氢气传感器中的应用前景。第二章:
人工智能技术开始广泛应用于各行各业,解决了包括医疗、金融、通讯、重工业、服务业在内的多个行业痛点,极大提升了社会生产力,并已经上升为国家战略,催生了市场对人工智能领域人才日益增长的需求。然而目前高校人工智能相关专业的学科建设普遍存在师资匮乏、教学资源不足、培养方案与产业需求脱节等问题,限制了对学生实践能力的培养。针对上述问题,星环科技公司开发了星云实验教学云平台。星云平台搭建在公有云平台上以Saa
重费米子材料由于其奇异的物理性质吸引了人们广泛的关注。Kondo晶格模型是研究重费米子材料比较成功的理论模型之一。Kondo屏蔽和RKKY相互作用间的竞争共同决定了体系的物理性质,前者倾向于在强耦合极限形成Kondo自旋单态,后者倾向于在弱耦合极限稳定磁序。在二维蜂窝晶格系统上,由于狄拉克点附近奇特的线性态密度,吸引我们打算在二维蜂窝晶格上研究半填满的Kondo晶格模型。首先我们从平均场的角度出发
研究背景:帕金森病是一种常见的神经退行性疾病,典型特征表现为静止性震颤、强直、运动迟缓、步态异常和平衡障碍等运动症状,另外也有自主神经功能紊乱、睡眠障碍、认知水平下降和焦虑或抑郁等非运动症状。冻结步态是帕金森病患者的一个常见症状,通常出现在疾病晚期,它是指患者在开始行走或行走过程中,步态不能启动或突然中断,感觉双脚像被粘在地面上。由于冻结步态的发作具有不可预测性,对冻结步态的诊断通常是通过问卷调查
日常生活中,很多家用电器如油烟机、空调、吸尘器存在管道低频噪声问题。传统被动噪声控制方法低频降噪性能较差,且可能影响散热。在这些电器中应用有源降噪的一个挑战是:由于传播噪声的管道短,控制系统的电声器件一般距离较近,一方面次级源产生的声信号会反馈至参考传声器,影响参考信号质量和系统稳定,导致控制性能下降;另一方面参考传声器与次级声源距离较近使系统的因果性要求无法满足,影响控制性能。本文从声反馈与因果