JACS 2026 | 介观结构化水增强了ProteinMPNN设计的泛素折叠蛋白的稳定性

获取详情及资源:

0 摘要

人工智能设计的蛋白质变体已经表现出对高温和化学胁迫的显著耐受性,但这种稳定性背后的分子机制仍不清楚。相关研究在这里结合全面的生物物理分析与核磁共振(NMR)分析,系统考察了热稳定的泛素及其由ProteinMPNN设计的变体R4和R10,并同时研究了另一套基于稳定性较低的ISG15羧基末端结构域(ISG15-CTD)的体系。结果显示,R4/R10以及ProteinMPNN设计的ISG15-CTD变体(ICVs)都表现出超过120°C的非凡热稳定性,并且在pH 3.0、8 M尿素的极端变性条件下仍能保持抗性。NMR弛豫、氢-氘交换以及分子动力学模拟进一步揭示,蛋白质周围存在一种具有保护作用的介观结构化水合层,它能够增强蛋白结合水与体相水之间的氢键网络,从而抑制蛋白 unfolding。序列与静电分析表明,这种水合现象源于蛋白表面电荷的富集与聚集。上述结果表明,介观结构化水合是ProteinMPNN赋予稳定性的一种普遍且由序列编码的机制,并为设计具有高度韧性的生物分子提供了物理学框架。

1 引言

蛋白质折叠与稳定性数十年来一直是研究热点,因为这一领域的核心问题在于理解蛋白质结构、动力学与功能之间复杂而精细的相互作用。随着生物制药、生物催化等领域对高稳健性蛋白质的需求不断增加,如何设计稳定蛋白质变得愈发重要。传统蛋白质工程策略通常聚焦于优化疏水核心,并强化氢键、盐桥等经典相互作用以提升稳定性。这些方法在改善蛋白质功能和折叠效率方面发挥了重要作用,但往往依赖反复的实验验证,同时也受限于对高度复杂相互作用进行准确建模的难度。

过去二十年间,包括Rosetta、FoldX、FireProt和Proteus在内的计算工具,推动了基于物理规律和已有知识的稳定性突变预测发展。这类方法通过对氢键、范德华堆积和静电作用进行细致建模,已经在提升热稳定性和催化稳健性方面取得了显著成效,并且能够对序列与结构关系提供一定的机制解释。不过,由于这类方法在很大程度上仍依赖人工经验和理性设计原则,通常一次只能针对少数残基进行修改,而蛋白质序列空间本身的巨大复杂性,仍然限制了对天然蛋白质已知特征之外其他稳定化因素的系统探索。

为了突破这些限制,人工智能的引入正在重塑蛋白质设计领域。与传统方法相比,人工智能能够以数据驱动和计算引导的方式,更全面地捕捉蛋白质折叠、稳定性及相互作用背后的规律。相关模型利用大规模结构和序列数据集识别决定蛋白质行为的模式,从而设计出具有增强性质的新型变体。不同于常规方法,人工智能驱动的策略能够纳入那些复杂且不直观、但会影响稳定性和功能的相互作用,显著拓展了蛋白质工程的设计范围。这些进展已经使得稳定性更高、溶解性更好,甚至具备新功能的蛋白质设计成为可能,而其中一些性质是传统工程手段难以实现的。

此外,以ProteinMPNN为代表的基于参考结构的方法提供了另一条互补路径。这类方法依托已有结构模板,在保持蛋白质三维架构的同时对序列进行计算重设计。ProteinMPNN通过从大规模结构-序列数据集中学习,能够探索更广阔的突变景观,因此并非取代已有的基于物理的框架,而是对其形成补充。值得注意的是,ProteinMPNN已经成功设计出泛素、TEV蛋白酶、肌红蛋白以及从头设计蛋白质的多个变体,这些变体不仅保持了结构完整性,还表现出更强的热稳定性。

泛素(Ub)是一种高度保守、由76个氨基酸组成的蛋白质,由于其本身具有出色的稳定性并承担重要生物学功能,因此是蛋白质工程研究中理想的模型体系。泛素的熔解温度(Tm)可达95°C,并且在酸性条件下依然具有较强韧性,这使其成为进一步提升蛋白质稳定性的一个极具挑战性的对象。相关研究在这里报告了对ProteinMPNN设计泛素变体(UbVs)的发现,这些变体引入了介观结构化水,从而显著增强了其在极端条件下的稳定性。R4和R10最初是为了实现对Rsp5 HECT E3连接酶的变构激活而设计的ProteinMPNN变体,此前已知它们具有更高的熔解温度和更好的溶解性,但其稳定性来源的分子基础一直并不清楚。

通过结合NMR、圆二色谱(CD)、差示扫描量热法(DSC)等生物物理光谱手段以及分子动力学模拟,该研究揭示了这些ProteinMPNN设计变体能够整合介观结构化水分子,从而获得对热变性和化学变性的更强抵抗力。这一结果为深度学习设计策略如何增强蛋白质稳定性提供了重要机制认识,也进一步拓展了稳健生物分子工程的可能性。围绕蛋白质形成复杂氢键网络和有序水分子排列的介观结构化水,似乎是这些ProteinMPNN设计泛素变体稳定性增强的关键因素。这种水合壳层可能像保护屏障一样,将蛋白质与热和化学变性的影响隔离开来,并解释了这些工程蛋白质所表现出的显著耐热性和耐酸性。关于介观结构化水在蛋白质稳定性中作用的这些认识,也为未来利用人工智能技术设计更稳健、更稳定的生物分子开辟了新的方向。

图1|Ub变体R4和R10的嗜热性与结构特征。 (a) 展示了泛素(Ub)在pH 6.3和pH 3.0条件下的熔解温度,以及ISG15的泛素样折叠结构域(残基77-157)和通过噬菌体展示筛选得到的Ub变体R5.4的熔解温度。Ub在pH 6.3条件下可稳定至96°C。(b) R4和R10在不同温度范围内热容几乎没有变化,表明它们具有极高的稳定性。(c) 在pH 3.0条件下,R4和R10的远紫外CD谱显示二者具有相似的二级结构分布。将R4和R10加热至95°C后,其CD谱基本保持不变,说明两者具有很强的热稳定性。相比之下,Ub在pH 3.0条件下从25°C升温至95°C时发生了解折叠,并在约198 nm处显示出典型的无规卷曲极小值。(d) 在1至2500 bar范围内记录的R4压力依赖性NMR HSQC谱表明,即使在2500 bar下,R4仍然维持良好的折叠构象。(e) 给出了Ub、R4和R10的序列比对,其中保守的疏水残基以蓝点标示,替换位点以粉色高亮显示。在结构表示中,Ub中的疏水残基以棒状模式呈现,13个核心残基以蓝色标出。R4和R10保留了其中12个核心残基,仅存在F45Y这一处替换。此外,R10还具有一个额外的疏水残基L7,其位置靠近核心区域。Ub及其变体之间的替换位点被映射到R4和R10的结构上,可以看到大多数变化位于β链表面。(f) Ub、R4和R10的NMR温度系数ΔδNH/ΔT分别以灰色柱、红点和蓝点表示。ΔδNH/ΔT的相关性散点图见补充信息图S5e。

2.1 具有高热稳定性的ProteinMPNN设计泛素变体

泛素(Ub)是一类呈β-抓握折叠的蛋白质,由5条β链和2条α螺旋组成,并且具有多个生物学旁系同源物,包括NEDD8、SUMO和ISG15,其中ISG15基因编码了两个泛素样折叠结构域(图S1a)。研究进一步关注一个问题:结构上同源的泛素样折叠蛋白与人工工程化的泛素蛋白,是否具有相似的构象稳定性。为此,利用DSC测定了若干泛素样折叠蛋白的热力学曲线,结果显示,Ub与ISG15 77-157之间存在显著的稳定性差异,其中Ub的Tm为96.8°C,而ISG15 77-157仅为62.5°C。当环境从中性变为酸性(pH 3.0)时,Ub的Tm也下降至76.4°C。此外,通过噬菌体展示筛选得到的泛素变体R5.4具有5处残基替换和2处残基插入,其Tm降低了约10°C,为85.1°C(图1a)。这种热稳定性的下降与此前在噬菌体展示泛素变体ME.2和ME.4中的观察结果相似,这两个变体均是针对MERS-CoV木瓜蛋白酶样蛋白酶筛选获得的。

随后,研究考察了由ProteinMPNN设计的R4和R10两个泛素变体的DSC曲线。ProteinMPNN是一种逆折叠工具,可基于Rsp5-Ub复合物的三维结构重新设计泛素一级序列。令人意外的是,尽管R4和R10相对于野生型Ub分别含有33处和32处氨基酸替换,它们却表现出极其突出的耐热性。两者的热容曲线几乎没有明显变化,表明其Tm都高于120°C(图1b)。对于像Ub这样本身体积小、结构紧凑且高度稳定的蛋白质而言,通过一次性改造,尤其是在43%残基被改变的情况下,快速且显著地提升热稳定性并不是一件容易的事。这种热稳定性的增强似乎也是ProteinMPNN设计泛素变体的普遍特征,因为另外6种泛素变体同样表现出更高的Tm(图S1c)。不过,ProteinMPNN究竟是如何实现这种更高的耐热性,以及具体涉及哪些残基,当时仍不明确。

进一步的CD和DSC测量表明,在酸性pH 3.0条件下,R4和R10在高达95°C时依然表现出很强的耐热性(图1c)。相比之下,Ub在pH 3.0和95°C这一超过其Tm(76°C)的条件下,其CD谱在198 nm处出现了典型的无规卷曲极小值。与Ub相比,R4和R10在pH从6.3降至3.0时稳定性提升得更加明显。值得注意的是,R4和R10在DSC和CD表征过程中从未发生展开,并且在NMR样品管中稳定保存超过24个月。

接着,利用NMR光谱研究了R4在不同静水压力下的折叠稳定性,压力范围从1 bar到2500 bar。与先前报道的Ub类似,R4在2500 bar下的高压NMR 15N-HSQC谱仍然保持良好的峰分散,说明R4在极端压力下依然维持紧凑且折叠良好的构象(图1d)。总体来看,R4和R10在高温、强酸和高压等多种条件下都表现出相对于天然Ub更突出的稳定性,但这种现象背后的具体机制仍不完全清楚。研究最初推测,ProteinMPNN可能通过调整这些变体的疏水核心或氢键网络,从而提升了它们的稳定性。

结构分析显示,R4和R10的晶体结构分别为PDB 9LQM和9LQK,分辨率分别为1.4 Å和1.5 Å,二者与Ub的结构高度相似,Cα RMSD仅为0.4 Å。Ub的疏水核心由13个残基组成,其中有12个在R4和R10中都保持不变(图1e)。唯一的替换是两者都将F45变为了Y45,但这一变化不太可能对蛋白质稳定性造成显著影响,因为其他核心残基如V17、I36、L50、L56、I61和Y59的极性与疏水性总体上都得到了保留。由于R4、R10和Ub在疏水核心上只存在细微差异,研究进一步借助相应晶体结构和NMR温度系数ΔδNH/ΔT,分别分析了分子内氢键网络及其键强度。

晶体结构分析表明,Ub中的分子内主链氢键网络在R4和R10中基本保留,不过R4和R10各自额外增加了4个短程氢键(图S2)。NMR ΔδNH/ΔT结果则显示,R4和R10中酰胺质子的温度依赖性与Ub总体高度一致,相关系数达到0.94,说明这些蛋白之间具有近乎相同的氢键强度和氢键网络(Figures 1f and S3, S4, S5)。经验上,对于Ub和蛋白GB3而言,当ΔδNH/ΔT分别大于-5.0或-2.72 ppb/K时,通常可视为与氢键形成有关。以Ub、R4和R10中的L69酰胺为例,该位点位于β5链,通过与远端K6羧基(β1)形成氢键来维持片层间相互作用,其NMR ΔδNH/ΔT值分别为-0.64、0.49和0.33 ppb/K,都表明这是一个形成强氢键的酰胺。相比之下,R4中的K71和R10中的R71表现出更为显著的变化,它们的ΔδNH/ΔT值均升高了约3.1 ppb/K,而Ub中的L71则明显更低,为-5.3 ppb/K。值得注意的是,在晶体结构中,K71和R71的酰胺基团都与溶剂分子形成了氢键,这为其较高的温度系数提供了合理解释。综合晶体结构中可视化的氢键网络与NMR ΔδNH/ΔT分布来看,这些工程化变体在氢键强度和氢键网络方面都得到了良好保留,这有助于它们在多种条件下维持稳定性,但其对极端环境表现出更强抵抗力的原因仍未完全阐明。

有意思的是,三种蛋白在NMR弛豫参数上存在明显差异,包括15N-R115N-R2。具体而言,ProteinMPNN设计的R4和R10相较于Ub表现出显著升高的15N-R2值和降低的15N-R1值(图2a)。R10在若干残基上可能发生μs-ms时间尺度的构象波动,这一点可由T11、I13、K48和羧基末端相对于基线升高的R2/R1比值看出。相比之下,R4并未表现出这类局部升高,这与其更加刚性的行为相一致,并提示其主要体现为更快的ns-ps时间尺度运动。此外,R4和R10的15N-R2平均值都比野生型Ub高出2-4 Hz。此前的分析已经证实,R4、R10和Ub在溶液中均以单体形式存在,这一点也得到NMR DOSY测量支持,因为它们的平移扩散系数Dtrans几乎没有差异(图S6a)。因此,R4和R10中升高的15N-R2并不能归因于蛋白质寡聚化。

尽管三者的三维结构几乎无法区分,氢键特征也高度相似,但R4和R10在热稳定性和酸性稳定性上都明显优于Ub,同时还表现出更高的15N-R2动力学特征。这提示,这些差异可能与更偏向亲水性的动力学行为有关,例如蛋白质与水之间的相互作用,而这类因素或许正是它们稳定性增强的根本原因。

图2|Ub变体可能具有不同于天然Ub的水合壳层。 (a) Ub、R4和R10的15N R1R2以及异核NOE值分别以灰色柱、红点和蓝点表示。与Ub相比,R4和R10的15N-R2速率高出2-5 Hz。(b) 将Ub、R4和R10置换到100% D2O中48 h后获得的NMR谱显示,R4和R10保留的未变化残基数量多于Ub。同时还给出了每种蛋白在48 h与0 h时谱图交叉峰强度的比值。(c) 保留至少20%初始信号强度的残基(比值0.2)以蓝色高亮,并在相应结构中以球状表示。在R4和R10中,疏水性I44斑块附近仍保留了相当数量未交换的酰胺信号,而这些信号在Ub中则已完全交换。

2.2 蛋白质水合壳层阻止快速H-D交换

与Ub的晶体结构(1.3 Å, PDB ID: 5DK8)类似,R4和R10的晶体结构也显示,其蛋白质表面广泛存在清晰且有序的水网络(图S2)。这些水分子与蛋白质形成了大量蛋白质-水氢键,并进一步构成彼此连通的有序水分子网状结构。此前的太赫兹光谱研究表明,Ub周围可延伸至18 Å的水合壳层刚性对突变非常敏感,例如V26A替换会引入更灵活的侧链,从而促进更接近体相水动力学特征的水合环境形成。因此,R4和R10周围这种有组织的水合壳层可能有助于增强蛋白质对热变性和化学变性的抵抗能力,像一层保护屏障一样稳定其结构。

此外,根据15N NMR弛豫参数推导得到的旋转相关时间τc也出现了明显变化。该参数对分子量和分子形状敏感,Ub的τc为4.15 ns,而R4和R10分别增加到5.2 ns和5.5 ns。由于Ub的τc与既往报道值(4.1 ns)一致,因此这些Ub变体中升高的τc,很可能反映出在NMR DOSY测得相似流体动力学半径RH的前提下,R4和R10结合了更多与水相关的有效质量。这个表面上的矛盾可以通过如下方式解释: τc对与水合层之间的局部摩擦耦合十分敏感,而RH主要反映的是整体分子外包络。因此,τc的升高更可能来源于更有序水合壳层内增强的溶剂-蛋白质相互作用,而不是真实流体动力学尺寸的增加,也不是由于存在寡聚体组分。

基于这些结果,研究提出假设,R4和R10外部包裹着比Ub更多、更有序的水分子,从而形成更刚性、结构化程度更高的水合壳层。这种水合层不仅能够抵抗热和化学胁迫,还会使分子的整体转动变慢。为了验证这一假设,研究进行了持续48 h的NMR氢-氘交换(HDX)实验。由于Ub、R4和R10在结构和氢键强度上基本相同(图1f),原本预期三种蛋白在残基水平上的HDX速率应当没有明显差异。然而,Ub、R4和R10的HSQC谱(图2b和S6b,c)却表现出截然不同的HDX模式,这一结果与依据NMR ΔδNH/ΔT值得到的氢键特征并不一致。

对48 h D2O样品与对照样品的全蛋白峰强度进行比较后发现,R4和R10分别有27个和32个残基仍保留了超过20%的信号,而Ub中只有12个这样的慢交换残基(图2c)。此外,Ub中的慢交换残基主要集中在β1、β2和α1区域,而R4和R10则表现出更为全局性的保护(图2c)。这种更强的氢交换保护效应,再结合显著增大的τc值,共同支持了这样一个结论: ProteinMPNN设计的这些变体周围存在结构化程度更高的水合壳层,从而使它们对D2O扩散具有更强的抵抗能力。

图3|介观结构化水壳层保护R4免受尿素变性影响。 (a) R4在8 M尿素、两种pH条件(6.3和3.0)以及300 K下的HSQC谱均显示出良好分散的交叉峰,说明R4仍保持折叠状态。相比之下,Ub在pH 3.0、8 M尿素条件下完全解折叠,而在pH 6.3、8 M尿素条件下则部分解折叠。青色阴影区域标出了Ub解折叠后的交叉峰。(b) R4在两种尿素变性条件下、25°C时的CD谱与相同pH但不含8 M尿素时记录的CD谱高度相似。当升温至95°C时,CD谱依然没有变化,表明其结构保持完整。由于尿素具有较强吸收,190-215 nm范围内的信号噪声较大。在两种尿素变性条件下,218 nm和222 nm处的CD椭圆率从25°C到95°C始终保持稳定。(c) R4在pH 6.3、无尿素和存在8 M尿素条件下的NMR温度系数ΔδNH/ΔT分别以灰色柱和空心蓝点表示。右侧Y轴对应的是R4在pH 6.3、8 M尿素条件下的ΔδNH/ΔT数值。(d) 与(c)类似,空心蓝点表示R4在pH 3.0、8 M尿素条件下的结果,对应数值见右侧Y轴。

图4|R4在尿素变性条件下仍保持良好结构,并受到水合壳层保护。 (a) 选取位于β2和α1区域的疏水残基L15和L24,在四种不同条件下通过CBCACONH谱的条带图(E16和N25条带)展示其13Cα13Cβ化学位移。每个条带顶部标出了对应的15N平面频率。虚线表示亮氨酸在无规卷曲状态下的13Cα13Cβ化学位移。(b) 展示了R4在pH 6.3、pH 6.3加8 M尿素以及pH 3.0加8 M尿素三种条件下,15N编辑的三维NOESY-HSQC谱中L67的部分条带图。结果表明,从L67的HN到远程残基侧链,包括Y4、V5和K6之间的重要结构相互作用在不同条件下都得到了显著保留。各条带上方标出了NOESY谱中L67对应的15N频率。(c) 给出了R4在pH 6.3加8 M尿素条件下(上)和pH 3.0加8 M尿素条件下(下)基于NOE得到的20个结构组成的集合,配色方案与(a)中一致。(d) R4在8 M尿素条件下进行HDX后48 h记录的15N-HSQC谱显示,存在大量未变化或交换缓慢的交叉峰,说明其结构受到了良好保护。(e) 采用与(d)相同的配色方案,绘制了R4在两种尿素变性条件下48 h与0 h交叉峰强度的比值。在pH 3.0加8 M尿素条件下,R4在整个蛋白质范围内的许多残基仍保留了超过60%的信号强度。

2.3 水合层使AI设计的R4免受化学变性剂破坏

HDX实验结果表明,ProteinMPNN设计的变体周围存在一层水合壳层。基于这一发现,研究进一步提出,这种由水环境塑造的R4,可能在8 M尿素这样的强化学变性条件下依然具有异常突出的保护能力。实验结果的确证实了这一点:在8 M尿素存在下,Ub在pH 6.3或pH 3.0条件下分别表现出部分或完全解折叠,而R4在相同变性条件下仍然能够以天然构象保持极高稳定性(图3a、S3和S4)。更出人意料的是,温度依赖的CD分析显示,即使在热变性和化学变性共同作用的条件下,R4依然保持了其特征性的二级结构(图3b)。

进一步在pH 6.3、8 M尿素条件下利用NMR ΔδNH/ΔT评估R4中的氢键强度,发现其模式与天然状态高度相似,仅表现出轻微减弱(图3c)。即便在更严苛的pH 3.0加8 M尿素条件下,R4中的氢键网络依然顽强保持完整,ΔδNH/ΔT仅下降了4-6 ppb/K,说明在这些极端胁迫条件下氢键稳定性只出现了轻微削弱(图3d)。与此同时,R4仍维持天然折叠构象,并且在pH 3.0、8 M尿素条件下表现出比Ub更强的抵抗能力。这些结果共同突出显示了由水合层塑造的R4对化学变性,包括酸和/或尿素,具有惊人的增强抗性。值得注意的是,即使在最严苛的化学条件,即8 M尿素和pH 3.0同时存在时,R4仍然保持了良好的溶液状态,并且在完成NMR表征8个月后依然稳定。

这一现象促使研究进一步在这些变性条件下对R4进行了更深入的NMR结构分析。位于β2和α1区域的两个亮氨酸残基L15和L24,其13Cα13Cβ化学位移在8 M尿素条件下跨越pH 6.3到3.0的范围内始终保持稳定,说明其局部结构特征没有发生改变(图4a)。TALOS-N预测得到的二级结构也表明,R4在所有测试条件下的结构都保持一致(图S4b)。这一明确结果有力证明,即使在严重化学变性作用下,R4仍然稳固地保持了类天然结构。

R4的三维NOESY谱也进一步支持这一结论。在天然缓冲液和变性缓冲液中,位于β5的L67与位于β1的Y4、V5和K6之间都显示出相同的长程相互作用(图4b),说明两种条件下都维持了类天然构象。相比之下,此前已有研究报道,Ub在相同的严苛条件下会发生显著的结构解折叠。基于NOE约束得到的R4在两种变性条件下的结构集合,即pH 6.3下8 M尿素和pH 3.0下8 M尿素,与R4晶体结构高度重合(图4c),主链RMSD在1.1 Å以内。与此同时,R4在这两种含尿素条件下的15N-R2速率显示出相同的刚性分布模式(图S4a),其中R4在pH 6.3条件下的15N-R2相较于Ub显著升高(图2a)。R4在8 M尿素溶液中升高的15N-R2速率,很可能与溶液黏度增加有关,中性和酸性缓冲液中的黏度分别为1.53和1.39 mPa·s。

此外,在这两种变性条件下进行的R4 NMR-HDX实验也发现,在交换反应开始48 h后,仍有超过30%的交叉峰没有完全从NH交换到ND状态(图4d、e)。例如,在pH 6.3加8 M尿素条件下,R4仍有23个残基保留了超过20%的峰强度。这些慢交换残基与天然状态下观察到的结果一致(图2c),表明8 M尿素并未实质性破坏R4的分子内氢键和三维构象。更引人注目的是,酸性变性条件下,R4整个序列范围内都出现了强烈的NH信号。在pH 3.0和8 M尿素条件下置换到100%D2O后48 h,R4中仍有超过32个残基保留了60%以上的NH信号。更强的信号可能部分归因于酸性pH下本征NH-ND交换速率更慢,但8 M尿素这一变性条件本身只对氢-氘交换速率产生了轻微影响,因此R4在pH 3.0、8 M尿素中的NH信号得以良好保留(图4e)。

综合来看,这些结果清楚表明,R4结构周围由设计所塑造的水合壳层能够提供强有力的保护,使其在溶剂环境中展现出远强于天然Ub的韧性和稳定性(图S2)。

图5|ProteinMPNN设计的ISG15-CTD变体表现出极端热稳定性,并保留了由水合驱动的稳定性。 对ProteinMPNN设计的ICV进行验证,说明介观结构化水合赋予的稳定性具有普遍性。(a) 5个ICV(68、84、116、188和318)的DSC曲线显示,除ICV-116外,其余变体在高达120°C时都未检测到熔解转变;ICV-116的Tm约为110°C。(b) ICV-68在pH 6.3和pH 3.0条件下、是否加入8 M尿素以及25°C和95°C时记录的远紫外CD谱表明,其二级结构在所有条件下都得到了完全保留。(c) ICV-68的NMR溶液结构显示出清晰明确的泛素样折叠,在20个构象组成的结构集合中,主链RMSD为0.7 Å。(d) ICV-68的温度系数ΔδNH/ΔT(蓝点)与ISG15-CTD(灰色柱)进行比较,显示二者具有保守的氢键模式。横坐标上分别以红色和黑色标出了ISG15-CTD与ICV-68的残基编号。(e) ICV-68的HDX-NMR分析显示,在交换48 h后其主链酰胺仍受到明显保护,这与一种刚性且溶剂有序的折叠状态一致。(f) ICV-68的结构示意图高亮显示了在HDX 48 h后仍保留超过10% NH信号的残基,说明介观结构化水合所介导的局部保护作用。综合来看,这些结果表明,ProteinMPNN能够通过增强水合结构,将即便只是中等稳定的模板重新设计为高度稳定的变体。

2.4 ISG15-CTD变体进一步证明稳定性来源于介观结构化水

为了进一步验证介观结构化水合对ProteinMPNN设计稳定性的作用,研究选取了ISG15的羧基末端结构域(ISG15-CTD,残基77-157)作为第二个模型体系(图S7)。ISG15-CTD具有与泛素相似的折叠方式,属于泛素样折叠,二者的RMSD为0.9 Å,但其热稳定性明显更低,Tm比Ub低约35°C。研究以ISG15-CTD的晶体结构(PDB ID: 6XA9, chain B)为模板,利用ProteinMPNN生成了500个ISG15-CTD变体(ICVs)。在经过AlphaFold结构预测之后,选取得分最高、pLDDT值最高的30条序列用于蛋白表达和生物物理验证(图S7a)。这30个ICV相对于ISG15-CTD都具有超过60%的序列差异,其中一个代表性变体ICV-68被证实在溶液中以单体形式存在(图S7b,c和表S3)。

随后,研究对其中纯度较高的20个ICV进行了差示扫描荧光法(DSF)分析。结果显示,与Tm仅为52.4°C的ISG15-CTD相比,这些变体都表现出极强的热稳定性(图S8)。进一步选取其中9个变体进行CD光谱分析,结果表明它们在95°C下仍然保持清晰的二级结构,而ISG15-CTD在同样条件下已经完全变性(图S9)。在此基础上,又对5个最稳定的变体,即ICV-68、84、116、188和318,进行了DSC分析。结果显示,除ICV-116在110°C时开始解折叠外,其余几个变体的Tm都超过了120°C(图5a)。这些结果共同说明,ProteinMPNN能够从一个相对不稳定的模板出发,设计出性质良好且具有极高稳定性的蛋白质变体。

鉴于R4和R10表现出了显著的耐热、耐酸和抗尿素能力,研究接着考察这些ICV是否也具有类似性质。结果发现,ICV-68在所有测试条件下都能保持可溶且折叠良好的状态,无论是在pH 6.3还是pH 3.0条件下,无论是否存在8 M尿素,它都维持稳定,而ISG15-CTD则在这些条件下完全变性(图5b)。尤其值得注意的是,ICV-68与R4和R10类似,即使在pH 3.0、8 M尿素和95°C的组合条件下,依然能够保持天然构象,表现出极其突出的结构韧性。

ICV-68在pH 6.3条件下的NMR溶液结构(图5c)显示,它保留了典型的泛素样折叠,在20个构象之间,其主链相对于ISG15-CTD的RMSD为1.0-1.3 Å。ICV-68的温度系数ΔδNH/ΔT与ISG15-CTD高度一致(图5d和S10),而NMR-HDX实验则进一步证实,ICV-68的酰胺交换速率明显更慢(图5e和S11)。在48 h之后,ICV-68中仍有超过15个残基保留了10%以上的信号强度,而ISG15-CTD在4 h内几乎已经发生完全交换。

综合这些生物物理和NMR结果可以看出,ProteinMPNN能够通过重塑蛋白表面水合环境显著增强蛋白质稳定性。以ICV-68为例,相较于其模板ISG15-CTD,其热稳定性提升了超过60°C,这进一步支持了介观结构化水在AI设计蛋白质稳定性增强中的关键作用。

图6|MD模拟展示了蛋白质-水以及水-水氢键网络。 (a) 展示了Ub、R4和R10的表面静电势,并标出了它们对应的结构区域。(b) 采用箱线图比较了Ub(灰色)与R4(洋红色)在MD模拟中的水合与相互作用指标。上排聚焦于水合环境,包括一级水合壳层(0-3.5 Å)和二级水合壳层(3.5-10.0 Å)中的水分子数量,以及蛋白质-水氢键总数。下排则关注水介导的相互作用,展示了两层水合壳层中靠近蛋白质的水-水氢键数量,以及蛋白质与水之间总的非键相互作用能。(c) 一级水合壳层中的蛋白质-溶剂氢键和水-水氢键分别以蓝色和黄色虚线表示。水分子以粉色小球表示。选取了Ub(左)和R4(右)中的若干残基,用于展示与图2中NMR HDX数据相对应的氢键网络。

2.5 蛋白质-水与水-水相互作用的可视化

与Ub相比,ProteinMPNN设计的变体含有更多带电残基。Ub中正电和负电残基数目分别为11和11,而R4中分别为15和16,R10中分别为12和15(图1e)。三种蛋白以及ICV的表面静电势分布存在明显差异(图6a和图S12),尤其是在α1和β链区域更为突出。这提示,R4和R10表面新引入的正负电荷可能促进了与溶剂之间更强的氢键作用,从而形成更加有序的蛋白质-溶剂相互作用。正因如此,R4和R10在热和化学变性条件下受到的扰动更小,并最终表现出更高的蛋白质稳定性。

为了直接可视化水对ProteinMPNN设计变体稳定性的深刻影响,研究进行了分子动力学(MD)模拟。结果显示,R4和R10中距离蛋白质表面3.5 Å以内的水分子,即所谓的一级水合壳层,其驻留时间明显长于Ub对应区域中的水分子(图6b和S13)。MD模拟进一步证实,那些发生缓慢NH-ND交换的残基(图2c),正是通过增强蛋白质-溶剂氢键以及水-水氢键而形成网络联系的。尤其值得注意的是,从Ub变为R4过程中发生改变的F4Y、F45Y、H68Y、G53D和R54K等残基,其侧链都能够持续与水形成氢键,并且每个残基周围还存在更多的水-水氢键(图6c)。

此外,二级水合壳层,即位于蛋白质表面3.5至10 Å之间的区域,也提供了重要信息。R4和R10在不同驻留时间范围内都比Ub保留了更多的水分子。例如,平均而言,R4在一级水合壳层和二级水合壳层中与水分子的相互作用次数分别比Ub高出约40倍和100倍。进一步的详细分析表明,R4和R10在一级水合壳层中保留的水,能够形成比Ub更多约5%-10%的蛋白质-溶剂氢键。因此,这些ProteinMPNN设计变体表现出更低的蛋白质-溶剂非键相互作用能,这意味着它们比天然蛋白具有更好的水溶性和稳定性。

与此同时,这些ProteinMPNN设计蛋白水合壳层中的水分子,由于形成了更多的水-水氢键,表现出更强的取向有序性,其运动性也因此低于体相水。综合这些现象可以有力支持这样一个观点:这些ProteinMPNN设计蛋白是由介观结构化水分子“塑造”的,因此R4相较于Ub表现出更慢的整体分子转动时间。实验与计算结果共同表明,介观结构化水分子能够保护ProteinMPNN设计变体免受热、酸或化学变性剂诱导的解折叠。

由于R4和R10表现出超过120°C熔解温度的极端耐热性,研究进一步在高温条件下进行了MD模拟,以比较它们与野生型泛素之间的稳定性差异。具体而言,研究在500 K条件下进行了模拟。结果显示,在整个500 ns模拟过程中,R4和R10的回转半径Rg几乎始终保持恒定,约为12 Å,而Ub的Rg在约100 ns后开始增大,并在200至300 ns之间升高到25 Å以上,随后又部分塌缩至约15 Å(图7a)。这种显著的Rg波动说明,Ub在高温下发生了广泛的结构不稳定和重组。轨迹中的代表性快照也显示,Ub经历了解折叠和部分塌缩(图7b)。相比之下,R4和R10在整个500 ns模拟过程中始终保持紧凑的天然构象,初始结构与最终结构之间几乎没有明显偏离(图7c),这一结果与它们极高的热稳定性完全一致。

图7|高温MD模拟显示ProteinMPNN设计变体能够持续保持结构稳定。 高温MD模拟揭示了ProteinMPNN设计变体出色的热稳定性。(a) 展示了泛素、R4和R10在500 K条件下进行500 ns模拟期间回转半径Rg的时间演化。泛素在100 ns后表现出逐渐膨胀和塌缩的现象,这与解折叠和错误折叠事件相一致;相比之下,R4和R10在整个模拟过程中都维持了几乎恒定的Rg值,约为12 Å。(b) 给出了泛素在若干选定时间点的代表性结构快照,显示其逐步发生解折叠,并伴随着三级堆积的丧失。(c) 展示了R4和R10在0 ns与499 ns时结构的叠合结果,可以看到二者相对于初始构象几乎没有发生明显偏离。这些结果表明,增强的介观结构化水合能够在极端热胁迫下有效维持ProteinMPNN设计变体的天然折叠状态。

图8|ProteinMPNN通过优化水合网络增强蛋白质稳定性。 (a) Ub本身由于具有可延伸至18 Å的广泛水合壳层而表现出较高的热稳定性,这种水合层赋予了它显著的耐热能力。然而,当处于酸性溶剂与尿素共同作用的环境中时,Ub会发生完全解折叠。相比之下,AI设计的Ub变体在结构上模拟了Ub,但具有更加有序的介观结构化水合壳层。这一增强的水合网络提供了更强的隔离和保护作用,使该Ub变体对高温、尿素、酸性条件,甚至多重胁迫共同作用的环境都表现出高度耐受性。因此,该Ub变体在极端条件下展现出非凡的稳定性。(b) 展示了泛素、R4、R10、ISG15-CTD以及ProteinMPNN设计变体ICV-68的氨基酸组成。与各自模板相比,这些设计变体中的正电荷和负电荷残基都出现了增加。(c) 对500个ProteinMPNN设计的ISG15-CTD变体(ICVs)进行统计分析后发现,带电残基持续富集,说明ProteinMPNN在设计过程中倾向于引入表面电荷。9个代表性ICV与ISG15-CTD的静电表面比较图见图S12。

3 讨论

ProteinMPNN设计的泛素变体R4和R10表现出对热变性和化学变性的极强耐受性,其稳定性明显超过天然Ub。研究表明,这种增强的稳健性与一种介观结构化水壳层的形成直接相关,该壳层像保护屏障一样,帮助蛋白质抵御严苛环境条件。MD模拟显示,这些结构化水分子与蛋白质结合更紧密,也更不易被外部溶剂扰动,这与氢-氘交换实验中观察到的稳定性提升高度一致(图8a)。

除了R4和R10之外,另外6个ProteinMPNN设计的泛素变体以及30个ISG15-CTD变体(ICVs)也都已被证实具有很强的热稳定性,尽管它们各自都包含30处以上的序列变化(图S1b、c和S10)。这说明,ProteinMPNN即使在大规模残基替换的情况下,仍能够较容易地产生高度稳定的蛋白质。由于ProteinMPNN并未改变构成疏水核心的关键残基(图1e),大多数替换主要发生在蛋白表面暴露位点。分析发现,这些表面残基往往会被带电氨基酸替代。例如,与野生型Ub相比,R4中负电荷残基增加了约6%,正电荷残基增加了约3.5%;而与ISG15-CTD相比,ICV-68中的对应增幅分别达到7.8%和10.3%(图8b)。对500个设计得到的ISG15-CTD变体进行更大范围统计后进一步发现,正电荷和负电荷残基平均都富集了约8%-10%(图8c)。

对Ub、R4、R10、ISG15-CTD和ICV-68进行比较序列分析表明,ProteinMPNN会稳定地引入更多带电残基,从而提高这些变体整体的表面极性。静电势图进一步显示,这些新增电荷在蛋白表面形成了更大、更连续的区域,有利于界面水分子的保留与有序化。综合这些结果可以推断,设计变体中增强的水合壳层主要来源于表面电荷分布的富集与聚集,这种变化促进了更强的蛋白质-水氢键作用以及更长程的水-水连通性。由此形成的带电侧链能够吸引更多水分子,并进一步增强蛋白质的水合状态。

除了增加表面暴露带电残基的数量之外,ProteinMPNN似乎还重新组织了蛋白表面的静电分布,使其更有利于结构化水合壳层的形成。由此建立起来的、与溶剂耦合的氢键网络,很可能正是这些设计变体能够抵抗高温、强酸和化学变性的根本原因。这种优化后的电荷分布可能带来了协同效应,使蛋白质周围的水密度提高了约10%,并增强了与溶剂相关的氢键网络。尽管逐一拆解单个突变的精确贡献仍然具有挑战性,但整体的序列特征和静电特征已经为介观结构化水合壳层的形成及ProteinMPNN设计蛋白的卓越稳定性提供了机制解释。

尽管人们早已认识到水合动力学在蛋白质稳定性中具有核心作用,但哪些具体序列模式能够促进持久或结构化水合,至今仍未被完全定义。这里的分析表明,ProteinMPNN倾向于在蛋白表面局部区域富集带电和极性残基,从而形成连续的静电景观,促进溶剂分子的协同有序排列。这种电荷模式很可能使水网络更致密、寿命更长,并通过溶剂介导的氢键将相邻残基桥接起来。这个发现提示了一条可能的设计原则,可用于基于物理引导或AI与物理混合驱动的蛋白质工程:通过策略性地分布表面电荷和极性斑块,可以在不改变疏水核心的前提下调控水合结构,从而获得极强的环境韧性。

整体来看,这些结果说明,ProteinMPNN对Ub的重设计是通过一种此前未被充分认识的机制来增强蛋白质稳定性的,即利用结构化水合作用,而不仅仅是优化蛋白内部的疏水相互作用。该研究进一步凸显了计算蛋白设计在构建高韧性生物分子方面的能力,尤其是能够设计出具有“水塑造”特征的蛋白质。这些认识为后续理性设计更高稳定性的蛋白质提供了新思路,也揭示了一种可用于生物技术和治疗应用的机制,即通过调控水合环境来构建稳定且极其耐受的蛋白质。