论文部分内容阅读
蛋白质折叠速率常数是研究和分析蛋白质折叠机制的重要动力学参数。提高蛋白质折叠速率的可预测性,有助于认识蛋白质折叠机制。一条蛋白质链拥有天文数字的随机构象,然而天然构象仅为其一,因此蛋白质不可能采用在氨基酸水平上的无偏随机搜索策略获得天然构象,这正是所谓的利文索尔悖论(Levinthal’s paradox)。体内和体外实验均表明,单域球蛋白质折叠时间平均约在毫秒量级。蛋白质的巨大构象空间与快速折叠事实之间的矛盾,可能通过两个途径来解释:一是,蛋白质要采取不利于错误构象的有偏搜索策略来发现天然构象(Zwanzig等的观点);二是,蛋白质要采取有限构象搜索空间的策略发现其天然态构象(Finkelstein、Englander、Dill等的观点)。蛋白质折叠过程遵循哪种策略,目前还处于争论阶段,但从最近的理论和实验研究结果看,似乎第二种观点略占上风。如果从结果论的角度来审视这个问题,那么能够定量地解释多数蛋白质折叠速率的那个假设应该更具合理性。为此,我们基于有限构象搜索空间的思想,从两个不同的途径减小构象搜索空间,提出了定量化预测蛋白质折叠速率的模型。蛋白质折叠速率范围从10-3s-1到106s-1跨越9个数量级,虽然各种蛋白质的折叠速率差异巨大,但折叠速率对蛋白质的结构细节非常不敏感。蛋白质的主链扭角取值分布决定了其结构框架,因此,我们组在2015到2017年间提出一个粗粒化的结构描述参数——累积主链扭角(Cumulative Backbone Torsion Angles,CBTA),发现此参数是蛋白质进行折叠所要搜索的构象空间的一个可能的表示。该参数不仅与蛋白质的大小相关,并且与蛋白质的结构拓扑相关。黄文敏、梁慧和王灵灵曾先后将此参数应用在不同的数据集上,检验其对蛋白质折叠速率的预测性能,发现该参数对折叠速率的预测能力高效且稳定。在这些研究的基础上,提出一个想法,就是由CBTA所表示的构象搜索空间的大小是否存在冗余?能否进一步减小构象空间而保证折叠速率的预测精度不降低甚至有所提高?基于这个想法,定义了一个可能是对构象搜索空间的更为精确表示的参数——有效累积主链扭角(Effective Cumulative Backbone Torsion Angles,CBTAeff)。CBTAeff是在CBTA的基础上,只考虑最优氨基酸的扭角贡献,而忽略掉那些在折叠动力学和热力学上均不重要的氨基酸的扭角贡献。也就是说,假设在蛋白质折叠中,构象搜索过程只在那些重要氨基酸的构象排布上花时间。不出所料,在几个较大的蛋白质折叠速率实验资料集上检验,CBTAeff模型都获得了至少不低于CBTA模型的预测精度和稳定性。这个结果表明,蛋白质折叠过程所要搜索的构象空间应该仅仅是整个构象空间中的一小部分,以至于它可以快速发现天然态构象。此外,如果蛋白质残基的折叠以及随机构象搜索仅仅发生在二级结构层面,而二级结构再通过非局域相互作用包装成三级结构,这将会大大地减少构象搜索成本,从而实现快速折叠。基于这样的假设,2014年,Rollins和Dill提出以二级结构为折叠单位的折叠子漏斗模型(Foldon Funnel Model),该模型成功地估计了跨越9个数量级的93个蛋白质折叠速率,折叠速率预测值与实验值的相关性R2=0.63。Finkelstein和Garbuzynskiy基于折叠单位为二级结构的假设,成功地解释了利文索尔悖论。Englander等采用质子交换(Hydrogen Exchange,HX)实验技术对几个蛋白质的折叠过程进行了研究,提出一个关于蛋白质逐步折叠的折叠子(foldon)假设。这些理论的和实验的研究均指向了同一个折叠图像,即将折叠的构象搜索空间缩小在二级结构范围。遵循这样的思路,提出了以二级结构为折叠单位,采用过渡态理论,以蛋白质二级结构数的平方根估计势垒高度,平均每个二级结构中参与长程相互作用的残基数估计前因子,构建了一个蛋白质折叠速率的预测模型。在包含159个已知折叠速率的蛋白质样本集上检验模型,折叠速率预测值与实验值之间判定系数R2=0.73。若进一步在前因子项中仅考虑最优氨基酸组分的影响,判定系数略有提高,达到R2=0.75,结果优于现有的经验模型。结果表明,蛋白质的二级结构数量及其配置是控制折叠速率的基本要素。并且,该模型还支持了Englander等提出的折叠子假设所暗示的折叠图景,为深入研究蛋白质折叠机制提供了有价值的线索。总之,蛋白质折叠过程仅搜索有限构象空间,二级结构是一个可能的有限折叠构象搜索单元。本研究中没有考虑二级结构形成时的协同效应,但这种协同效应有可能是进一步减少构象搜索时间的重要因素之一,这一点是在今后的研究中改进的一个可能方向。