Nat. Methods 2025 | METL:基于生物物理的蛋白质语言模型用于蛋白质工程

今天介绍的这项工作来自 Nature Methods。该研究围绕蛋白质语言模型在蛋白质工程中的应用展开,指出现有方法主要依赖进化序列数据进行训练,虽然能够有效捕捉序列与功能之间的统计关系,但缺乏对蛋白质底层物理机制的理解。因此在小样本学习和复杂突变外推等关键任务中,这类方法仍存在明显局限。针对这一问题,该文提出了METL(Mutational Effect Transfer Learning)框架,通过将分子模拟生成的生物物理数据引入预训练阶段,使模型能够学习蛋白质序列、三维结构与能量之间的内在关系。在此基础上,再结合少量实验数据进行微调,从而实现对蛋白质稳定性、催化活性和荧光等性质的预测。这种“生物物理+机器学习”的融合思路,使模型不仅具备统计学习能力,还具备一定的物理可解释性。实验结果表明,该方法在小样本条件下表现尤为突出,能够在仅有64个实验样本的情况下成功设计出具有功能的GFP变体。同时,在多种外推任务中,METL展现出优于或可比现有方法的性能,尤其是在未见突变和组合突变预测方面具有优势。这说明引入生物物理先验可以显著提升模型的泛化能力。此外,该研究还系统分析了模拟数据与实验数据之间的关系,发现大量廉价的模拟数据可以在一定程度上替代昂贵的实验数据,并揭示了两者在信息贡献上的定量关系。这为实际蛋白质工程中的数据获取策略提供了重要参考。总体而言,该工作提出了一种将分子模拟与深度学习紧密结合的通用框架,为蛋白质功能预测与设计提供了新的技术路径,并为未来构建具备物理认知能力的蛋白质语言模型奠定了基础。

获取详情及资源:

0 摘要

蛋白质语言模型通过在进化数据上进行训练,已经成为解决蛋白质序列、结构与功能预测问题的重要工具。然而,这类模型忽视了数十年来关于蛋白质功能相关生物物理因素的研究成果。针对这一不足,该研究提出了突变效应迁移学习(METL)框架,这是一种融合先进机器学习方法与生物物理建模的蛋白质语言模型体系。在METL框架中,首先利用生物物理模拟数据对基于Transformer的神经网络进行预训练,使模型能够学习蛋白质序列、结构与能量之间的基本关系。随后,通过实验获得的序列–功能数据对模型进行微调,从而利用这些生物物理信号来预测蛋白质的具体性质,例如热稳定性、催化活性和荧光特性。实验结果表明,METL在蛋白质工程中的一些关键挑战任务上表现优异,例如在小规模训练数据条件下的泛化能力以及对未见位点的外推能力。尽管基于进化信号训练的现有方法在许多实验任务中仍然具有较强表现,但METL在特定场景中展现出明显优势。该研究进一步展示了,在仅使用64个训练样本的情况下,METL即可设计出具有功能的绿色荧光蛋白变体,从而验证了基于生物物理的蛋白质语言模型在蛋白质工程中的潜力。

1 引言

正如人类语言中词语组合成句子以表达意义一样,蛋白质中氨基酸的特定排列也可以被视为一种信息丰富的语言,用于描述分子的结构与行为。蛋白质语言模型借助自然语言处理的发展,能够解析蛋白质序列中的复杂模式与关系,从而学习到具有生物学意义的低维表示,这些表示反映了蛋白质空间中的语义结构,并在蛋白质工程中具有广泛应用价值。此类模型不仅可以在有限训练样本下适配特定性质,例如酶活性或稳定性,还可以用于预测或生成任务,以设计具有目标特性的蛋白质。

现有的蛋白质语言模型,如UniRep和ESM,通常基于大量天然蛋白序列进行训练,这些序列覆盖了进化树中的广泛分布。其训练方式多采用自监督学习,例如自回归的下一个氨基酸预测或掩码预测。在这一过程中,模型能够学习到具有上下文感知能力的氨基酸表示,并隐式捕捉蛋白质结构、生物功能以及进化选择压力等信息。尽管这些模型表现强大,但它们并未利用过去一个世纪积累的大量蛋白质生物物理与分子机制知识,因此对支配蛋白质功能的物理原理缺乏直接认知。

针对这一问题,该研究提出了METL模型,在预训练阶段引入生物物理知识,并在后续通过实验数据进行微调,以服务于蛋白质工程应用。不同于基于进化数据的模型,METL利用分子模拟生成的生物物理数据进行预训练,这些数据覆盖多种蛋白序列与结构折叠类型。通过这一过程,模型能够学习序列、结构与能量之间的内在联系,从而形成具有生物物理基础的蛋白质表示。这种方法使模型能够基于底层物理机制理解并预测蛋白质功能,从而为传统基于进化的模型提供补充性信息。

在完成预训练后,METL通过实验获得的序列–功能数据进行微调,构建出能够预测具体蛋白性质的模型。实验数据在蛋白质工程中具有关键作用,因为其直接提供了序列变化与功能结果之间的经验关系。与仅依赖预训练知识的零样本模型或完全从头生成蛋白质的模型不同,METL通过实验数据明确学习序列变化如何影响功能。该模型在多个关键任务中表现突出,尤其是在小规模训练数据条件下的泛化能力以及对未见突变的外推能力方面具有优势。研究进一步展示了,在仅使用64个序列–功能样本的情况下,METL即可成功设计出具有功能的绿色荧光蛋白变体。总体来看,该研究建立了一种将生物物理知识系统性引入蛋白质语言模型的通用框架,并指出随着分子建模与模拟技术的发展,这一方法的能力将进一步增强。

2 结果

2.1 合成数据预训练蛋白质语言模型

深度神经网络和语言模型正在重塑蛋白质建模与设计领域,但这类方法在数据稀缺条件下以及面对分布外数据时仍存在明显困难。尽管神经网络已经能够学习复杂的序列–结构–功能关系,但它们普遍忽视了长期积累的蛋白质生物物理知识,这限制了模型在蛋白质工程中所需的强泛化能力。蛋白质工程本质上是通过修改蛋白质来优化其性质的过程,而这种任务往往需要模型具备对底层物理机制的理解。

针对这一问题,该研究提出了一种结合分子模拟合成数据的框架,用以将生物物理信息引入模型训练过程。分子建模能够生成大规模数据集,揭示氨基酸序列与蛋白质结构及能量属性之间的映射关系。通过在这些数据上进行预训练,模型可以获得基础的生物物理知识,并在后续与实验观测建立联系。

该研究提出的METL框架用于学习蛋白质的序列–功能关系,其流程包括三个阶段:合成数据生成、合成数据预训练以及实验数据微调。首先,利用Rosetta对数百万蛋白序列变体进行结构建模,并为每个结构提取55种生物物理属性,包括分子表面积、溶剂化能、范德华相互作用和氢键等。其次,使用Transformer编码器学习氨基酸序列与这些生物物理属性之间的关系,从而形成基于物理机制的内部表示。模型采用基于蛋白质结构的相对位置编码,以反映残基之间的三维空间距离。最后,将预训练模型在实验序列–功能数据上进行微调,使其能够在输入新序列时预测相应的功能性质。

在预训练策略上,METL设计了两种不同尺度的模型。METL-Local针对特定蛋白进行建模,通过在目标蛋白周围生成约2000万条最多包含五个随机突变的序列,计算其结构及生物物理属性,并训练模型进行预测。该方法在生物物理属性预测任务上表现优异,例如在Rosetta总能量评分上达到平均Spearman相关系数0.91。尽管如此,其核心目的并非仅重建这些属性,而是学习可用于后续微调的信息丰富表示。

相比之下,METL-Global将预训练扩展至更广泛的蛋白序列空间,旨在学习通用表示。该方法选取148种多样化的基础蛋白,为每种蛋白生成20万条序列变体,总计约3000万结构,并提取相应生物物理特征进行训练。实验发现,该模型在训练分布内表现良好(相关系数约0.85),但在分布外表现显著下降(约0.16),说明存在对预训练蛋白的过拟合现象。不过,该模型仍然能够学习到具有生物学意义的氨基酸表示,对蛋白质工程任务具有一定价值。

图1 | METL框架。 a,METL将稀疏的实验蛋白质序列–功能数据与密集的生物物理模拟数据相结合,从而学习具有生物物理信息的序列–功能关系空间。b,在预训练阶段,通过生成数百万个蛋白质序列变体,并利用Rosetta计算其生物物理属性,用于预训练蛋白质语言模型。随后,模型在实验序列–功能数据上进行微调,以预测蛋白质性质,例如结合能力、酶活性、热稳定性和表达水平。c,METL的模型结构由一个带有基于结构的相对位置编码的Transformer编码器构成。d,METL-Local与METL-Global在预训练数据所包含的序列范围上有所不同。METL-Local在目标蛋白周围的局部序列空间上进行训练,从而学习特定于该蛋白的表示;而METL-Global则在跨蛋白折叠空间的多样化序列上进行训练,从而学习通用的蛋白质表示。

2.2 基于生物物理的蛋白质语言模型的泛化能力

在小规模或存在偏置的数据集上训练的神经网络往往难以泛化到新的数据,这一问题在蛋白质工程中尤为关键。由于实验数据通常样本数量有限,且突变分布可能存在明显偏斜,这些因素会直接影响模型在新蛋白变体设计中的预测准确性与实际应用价值。

为系统评估METL的泛化能力,该研究在11个实验数据集上进行了严格测试,这些数据集涵盖不同大小、结构折叠类型和功能的蛋白质,包括GFP、DLG4、GB1、GRB2、Pab1、PTEN、TEM-1以及Ube4b等。尽管METL-Global的预训练数据中包含与DLG4、GRB2和TEM-1在序列或结构上具有一定相似性的蛋白,但这些相似性均低于40%。实验结果显示,在预测Rosetta能量评分(预训练阶段)或实验功能(微调阶段)时,这些蛋白并未表现出明显优于其他蛋白的性能,这说明模型并未简单依赖相似性进行预测。

在方法对比方面,该研究将METL与多种已有方法进行了系统比较。对比方法包括无需训练即可直接预测的模型,例如基于结构能量的Rosetta评分、基于进化信息的EVE模型以及快速稳定性预测模型RaSP。同时,还评估了多种监督学习与微调方法,包括使用独热编码的线性回归模型、结合EVE评分的增强线性模型、非参数Transformer模型ProteinNPT,以及基于实验数据微调的ESM-2蛋白语言模型。在实验设计上,研究构建了完整的训练、验证和测试数据划分方案,覆盖不同规模的训练集以及多种具有挑战性的外推任务。同时,通过多次重复划分实验数据,控制训练样本选择带来的随机性,从而更加稳健地评估各模型的泛化性能。

该研究通过构建不同规模的训练子集,系统评估了各模型在有限数据条件下的学习能力,并分析模型性能随训练集规模变化的趋势。实验结果表明(图2),在小规模训练数据下,针对特定蛋白构建的模型(如METL-Local、Linear-EVE和ProteinNPT)整体优于通用蛋白表示模型(如METL-Global和ESM-2)。在这些蛋白特异方法中,表现最优的通常是METL-Local或Linear-EVE,其中METL-Local在GFP和GB1数据集上表现尤为突出。尽管ProteinNPT在部分小样本设置下能够超过METL-Local,但在这些情况下其整体表现仍普遍不及Linear-EVE。进一步分析显示,METL-Local与Linear-EVE之间的性能差异在一定程度上取决于Rosetta总能量评分和EVE评分与实验数据之间的相关性。当训练数据规模逐渐增大时,METL-Local的性能不再主要受Rosetta评分相关性的影响,而更多受到具体数据集特性的主导。对于通用蛋白模型而言,METL-Global与ESM-2在小到中等规模数据集上表现相近,但随着训练样本数量增加,ESM-2通常逐渐取得性能优势。这一结果表明,不同类型模型在数据规模变化下存在不同的适用范围与性能表现特征。

图2 | Linear、Rosetta总能量评分、EVE、RaSP、Linear-EVE、ESM-2、ProteinNPT、METL-Global和METL-Local在不同训练集规模下的性能对比。 该图展示了11个数据集上的学习曲线,横轴为训练样本数量(从8到16384),纵轴为测试集上真实蛋白功能评分与预测评分之间的Spearman相关系数。对于每一种训练集规模,均进行了多次重复实验,其中最小训练集规模对应101次重复,最大规模对应3次重复。图中结果为这些重复实验的Spearman相关系数中位数,“Average”表示在11个数据集上的平均学习曲线。

为模拟真实蛋白质工程中的复杂应用场景,该研究设计了四类具有挑战性的外推任务(图3),包括突变外推、位点外推、组合外推和分数外推。这些任务对应实际数据中常见的问题,例如部分位点缺乏突变、评分分布偏向低值,或数据仅包含单点突变等情况。突变外推用于评估模型在20种氨基酸之间的泛化能力,即在某一特定位置仅观察到部分氨基酸类型时,预测未在训练数据中出现的氨基酸替换效果。在这一任务中,模型需要基于已有信息推断未观测氨基酸的功能影响。实验结果表明,ProteinNPT、ESM-2、METL-Local、Linear-EVE和METL-Global在该任务上均表现良好,在不同数据集上的平均Spearman相关系数约为0.70至0.78,说明这些模型能够较好地学习氨基酸类型之间的替换规律。位点外推则进一步提升了任务难度,其目标是在训练数据中未发生突变的序列位置上进行预测。这一任务要求模型具备较强的先验知识或对蛋白质结构的理解能力。实验结果显示,ProteinNPT和METL-Local在该任务中表现最佳,平均Spearman相关系数分别为0.65和0.59。相比METL-Global,METL-Local在突变外推和位点外推中的优势主要来源于其局部预训练策略,该策略在所有位置和所有突变类型上进行数据生成,从而为模型提供了完整的局部序列空间信息,使其能够更好地进行外推预测。

图3 | 不同外推任务下的性能对比。 a–d,展示了Linear、Rosetta总能量评分、EVE、RaSP、Linear-EVE、ESM-2、ProteinNPT、METL-Global和METL-Local在突变外推(a)、位点外推(b)、组合外推(c)和分数外推(d)任务中的相关性表现。每种外推任务均进行了9次重复实验,图中结果为中位数。误差条表示一个标准差。

组合外推用于评估模型对多突变效应的预测能力,其训练仅基于单点氨基酸突变,而测试则要求预测多个突变同时发生时的功能变化。这一任务能够反映模型对突变相互作用的建模能力。实验结果显示,大多数监督学习模型在该任务上表现良好,平均Spearman相关系数超过0.75。线性回归方法表现出较强性能,这与其基于加性假设的建模方式一致,也说明该研究所涉及的功能景观在一定程度上以加性效应为主导。相比之下,ProteinNPT表现略弱,平均相关系数为0.67,这一结果在一定程度上受到其在GFP数据集上表现较低的影响。分数外推则是最具挑战性的任务,其目标是在仅使用低于野生型性能的样本进行训练的情况下,预测性能高于野生型的变体。实验结果表明,在大多数数据集上,所有模型的Spearman相关系数均低于0.3,说明该任务难度极高。GB1数据集是一个例外,在该数据集中所有监督模型的相关系数均达到0.55以上,其中METL-Local和METL-Global均超过0.7。该任务困难的原因可能在于,破坏蛋白质功能的机制与提升功能的机制存在本质差异,因此模型难以从低性能样本中学习到提升性能的规律。此外,值得注意的是,未使用实验数据训练的Rosetta总能量评分和EVE模型在分数外推任务上的表现明显弱于其他外推任务。这表明这些方法更倾向于区分蛋白质是否具有功能,而难以捕捉功能强弱的细粒度变化。

在上述预测与外推任务的基础上,该研究进一步引入了多种额外基线方法进行比较,包括随机初始化的METL-Local模型、将Rosetta总能量评分作为输入特征的增强线性回归模型,以及基于序列的卷积神经网络和全连接网络。实验结果表明,METL-Local在几乎所有数据集的预测任务中均优于这些基线方法,或在计算效率与可扩展性方面具有明显优势。此外,研究采用测试集中前100个候选变体的召回率作为补充评估指标。结果显示,较高的Spearman相关系数并不一定意味着模型在筛选高性能变体方面具有良好表现,这说明单一相关性指标无法全面反映模型在实际应用中的有效性。在模型结构分析方面,该研究还进行了系统性评估,包括比较基于一维序列的相对位置编码与基于三维结构的相对位置编码之间的差异,以及特征提取与微调策略对模型性能的影响。同时,还分析了全局模型规模变化带来的性能差异,以及模型在生物物理预训练阶段可能出现的过拟合问题。这些实验从多个角度验证了METL框架设计的合理性及其在不同设置下的表现特点。

2.3 模拟数据与实验数据的信息价值

METL模型同时在模拟数据和实验数据上进行训练。相比之下,模拟数据的生成速度更快、成本更低,因此该研究旨在理解这两类数据之间的相互作用,以及模拟数据是否能够在一定程度上弥补实验数据的不足。为量化模拟数据与实验数据的相对信息价值,该研究评估了在不同规模模拟数据预训练以及不同规模实验数据微调条件下GB1的METL-Local模型性能。结果表明,增加这两类数据都会提升模型性能,但随着数据量的增加,性能提升逐渐出现边际收益递减。图4中的阴影区域表示等性能曲线,即不同模拟数据与实验数据组合在性能上相近。例如,一个使用1000条模拟数据进行预训练并结合320条实验数据进行微调的模型,其性能与使用8000条模拟数据预训练并仅使用80条实验数据微调的模型相当。在该示例中,增加7000条模拟数据相当于增加240条实验数据的效果,因此约29条模拟数据可以带来与1条实验数据相当的性能提升。

**图4 | GB1中实验数据与模拟数据数量之间的关系。 **等高线图展示了在不同规模的模拟数据(用于预训练)和实验数据(用于微调)组合下训练METL-Local模型所得到的测试集Spearman相关系数。图中以网格形式给出了不同实验数据量与模拟数据量组合对应的相关性数值。结果表明,随着两类数据数量的增加,模型性能均有所提升,但当模拟数据规模达到约128000条后,其带来的性能提升开始呈现明显的边际收益递减。

研究发现,不同蛋白对增加模拟预训练数据的响应呈现出不同模式。对于较大的蛋白,例如GFP(237个残基)、TEM-1(286个残基)和PTEN(403个残基),存在一种阈值效应,即在给定实验数据规模下,模型性能在模拟数据数量较少时基本保持平稳,直到模拟数据达到某一临界规模后,下游性能才会出现显著提升。相比之下,对于较小的蛋白,例如GB1(56个残基)、GRB2(56个残基)和Pab1(75个残基),随着模拟数据增加,模型性能呈现更加平滑的提升趋势。在实验数据较为充足时,这种性能提升幅度相对较小,但在整个预训练数据范围内表现得更加稳定,直到达到收益递减的阶段。这种信息增益现象可能受到多种因素影响,包括蛋白质的大小、结构与功能特性、实验测定方法以及Rosetta建模的准确性等。此外,研究还观察到,当模拟数据规模达到约16000条时,模型性能开始出现饱和并进入收益递减阶段,这一规模远小于主实验中使用的约2000万条数据。这表明在实际应用中,可以使用更少的模拟数据来训练METL-Local模型,从而降低计算成本。

2.4 合成数据预训练赋予生物物理知识

METL预训练的目标是学习一种具有生物物理基础的蛋白质表示。为了进一步分析预训练过程并理解模型所学习到的内容,该研究在分子模拟预训练完成但尚未进行实验数据微调的阶段,对GB1的METL-Local模型的注意力图和残基表示进行了分析。采用三维相对位置编码的METL模型在初始化时具有较强的归纳偏置,并将野生型蛋白结构作为输入。在预训练之后,针对GB1野生型序列得到的注意力图与其真实结构中的残基距离矩阵高度相似。相比之下,另一种使用一维相对位置编码且在训练过程中不引入结构信息的METL模型,未能学习到与GB1结构接触关系相对应的注意力模式。这一结果表明,三维相对位置编码结合预训练过程,使模型能够关注在三维空间中彼此接近、且可能具有功能重要性的残基对,从而体现出对蛋白质结构信息的有效学习能力。

该研究进一步通过可视化预训练后的GB1 METL模型中每个序列位置的残基层表示(对不同氨基酸类型取平均)来分析模型所编码的信息。结果显示,这些残基层表示在残基的相对溶剂可及性(RSA)上表现出明显的聚类现象,同时在三维结构位置上也呈现出较弱的组织结构,这一结论通过可视化观察以及与残基间距离模式的定性对比得到验证。对其他数据集的分析进一步验证了这一现象:采用三维相对位置编码的模型始终将注意力集中在空间上相互接近的残基之间,而残基层表示在所有数据集中均表现出基于RSA的聚类模式。这表明,即使在尚未接触任何实验数据的情况下,预训练后的METL模型已经具备对蛋白质结构及关键因素(如残基埋藏程度)的基础理解能力。

为验证METL预训练是否能够学习到潜在的上位效应(epistasis)相互作用,该研究在具有明确上位效应特征的GB1变体上进行了评估。结果表明,预训练后的METL-Local模型能够成功识别GB1中动态β1-β2环区域的已知相互作用位点,其中第7、9和11位点的两两组合均位于预测上位效应排名的前10%。此外,该模型还能够捕捉到G41L/V54G双突变中的强负上位效应(位于预测结果的前0.5%),这一结果与已知的小残基与大残基之间的补偿性交换机制一致。然而,对于由二硫键驱动的正上位效应(如p.Tyr3Cys/p.Ala26Cys变体),METL的预测存在低估现象,这可能是由于在生成预训练数据时,Rosetta未能自动建模二硫键所致。总体而言,这些结果表明,METL在预训练阶段所学习到的表示能够捕捉驱动上位效应的关键结构信息,同时也揭示了基于Rosetta进行预训练在某些特定机制建模上的潜在局限性。

2.5 功能特异模拟提升METL表示能力

METL模型在预训练阶段主要基于通用的结构与生物物理属性,但并未针对特定蛋白功能(如配体结合、酶活性或荧光)进行优化。已有大量研究利用分子模拟来建模蛋白质构象动力学、小分子配体对接、蛋白–蛋白相互作用以及酶反应过渡态等功能相关特性。这些功能特异模拟可以用于生成更贴近目标功能和实验测量的预训练数据,从而提升模型性能。在迁移学习中,预训练任务与目标任务之间的相似性对于获得良好效果至关重要。

为展示功能特异模拟如何提升初始预训练的METL模型及其微调后的性能,该研究对GB1的模拟过程进行了定制,使其更接近实验条件。GB1的实验数据主要测量其变体与免疫球蛋白G(IgG)之间的结合相互作用。为匹配这一实验功能,研究扩展了Rosetta建模流程,对GB1–IgG复合物进行建模,并计算了17种与结合能变化相关的特征。这些功能特异属性与实验数据的相关性高于通用生物物理属性,表明其可以为模型预训练提供更有效的信号。

基于这些特征,研究构建了一个在预训练中引入IgG结合属性的METL模型,称为METL-Bind。该模型是METL-Local的一种变体,专门针对GB1。实验结果表明,在实验数据有限的情况下,METL-Bind在微调后的性能优于仅基于GB1通用生物物理属性预训练的标准METL-Local模型。

为了分析两种模型是否在不同结构区域具有优势,研究计算了GB1序列中每个残基位置的预测误差。结果显示,METL-Bind在大多数残基位置上表现更优,尤其在GB1–IgG结合界面区域,对突变效应的预测明显更准确。其中改进最显著的残基是第27位谷氨酸,该位点是形成稳定GB1–IgG复合物的关键界面残基。

图5 | 功能特异模拟提升GB1上的METL预训练效果。 a,METL-Local(METL-L)基于单独GB1结构的通用Rosetta生物物理属性进行预训练,而METL-Bind不仅使用GB1结构的通用生物物理属性,还引入GB1–IgG复合物结构中的结合相关评分进行预训练。b,c,展示了Linear、METL-Local和METL-Bind在GB1数据集上的学习曲线及外推性能。METL-Local与METL-Bind在相同的序列变体上进行预训练,仅在Rosetta评分项上有所不同。微调数据划分与重复实验设置与图2一致。每个点表示9次外推实验中的一次结果,竖线表示中位数,方括号内为Spearman相关系数的中位数。d,e,热图展示了在不同序列位置上,METL-Bind相较于METL-Local具有更低预测误差的测试样本比例。结果基于训练集规模为32的设置,并对多次重复结果取平均。由于数据集中不存在第1位点的突变,该位置用“X”标记。总体来看,在55个序列位置中有44个位点上METL-Bind的误差更低。右侧结构图展示了GB1–IgG结合界面,并使用与热图相同的误差比例对GB1结构进行着色。

尽管在训练数据充足时两种模型性能趋于一致,但METL-Bind在小样本条件下的优势表明,引入GB1–IgG复合物相关属性进行预训练有效提升了模型表示能力。考虑到许多重要蛋白性质只能通过低通量实验准确测量,该结果表明,在这些性质可以通过计算近似时,METL-Bind提供了一种提升预测性能的有效思路。基于功能特异模拟的预训练使METL在有限实验数据条件下具备初步的功能感知能力。

2.6 METL在多样化GFP变体设计中的泛化能力

预测模型可以用于在序列–功能空间中进行搜索,从而改造天然蛋白或设计新蛋白。然而,这类模型通常面临两个关键挑战:一是在训练数据有限的情况下进行可靠预测,二是对未探索的序列空间进行外推。为验证METL在实际蛋白质工程中的应用潜力,该研究评估了METL-Local在复杂设计场景下筛选具有荧光特性的GFP变体的能力。研究使用METL-Local设计了20个不在原始数据集中的GFP序列,并通过实验测定其荧光亮度(图6)。

图6 | 低样本(Low-N)GFP设计。 a,GFP设计实验概览。在仅有N=64个实验训练样本的低数据条件下,使用METL-Local指导GFP设计。测试了两种设计约束:Observed AA,即设计序列仅包含训练集中出现过的氨基酸替换;Unobserved AA,即设计序列不包含训练集中出现过的氨基酸替换。b,多维尺度分析(MDS)下的序列空间可视化,展示野生型GFP序列、64个训练序列以及20个设计序列。设计序列相对于野生型包含5个或10个氨基酸突变。训练序列根据其实验亮度值以渐变颜色表示;设计序列根据是否具有荧光进行着色,其中荧光定义为亮度至少达到野生型GFP的10%。c,设计序列、训练集中表现最好的序列(BT)以及野生型序列(WT)的实验测定亮度。每个点表示三次重复实验中的一个独立样本。d,随机基线序列的实验测定亮度。

在实验设计上,该研究刻意构建了接近真实应用的低数据与外推场景。具体而言,仅使用从完整数据集中随机抽取的64个GFP变体对METL-Local模型进行微调。这些样本平均包含3.9个氨基酸突变,其功能分布与完整数据集相似。在此基础上,设计了包含5个或10个氨基酸突变的序列,从而强制模型进行组合外推。此外,研究还设置了两种设计约束条件:Observed AA和Unobserved AA。在Observed AA条件下,设计序列仅包含训练集中出现过的氨基酸突变;而在Unobserved AA条件下,设计序列不包含训练集中出现过的突变,这一设置要求模型进行突变外推和或位点外推。针对每种突变数量(5突变和10突变)以及每种设计条件,分别设计了5个序列。在具体实现中,研究采用模拟退火方法在序列空间中搜索,使设计序列最大化METL-Local预测的适应度,并通过聚类筛选出具有多样性的候选序列。同时,还在相同条件下随机采样序列作为对照基线,用于评估模型设计结果的有效性。

研究将20个由METL设计的GFP序列以及20个随机生成的对照序列对应的基因进行合成,并将其克隆到表达载体中,与荧光蛋白mKate2融合表达,以复现训练数据的实验条件。在这些融合蛋白中,mKate2序列保持不变,而GFP序列发生变化。通过计算GFP荧光与mKate2荧光的比值,可以得到一个不受蛋白表达水平影响的“相对亮度”指标。总体来看,METL成功设计出了具有功能的GFP变体,其中20个设计中有16个表现出可测量的荧光。不同设计设置下,成功率和荧光特性存在明显差异。在Observed设置中,无论是5突变还是10突变,设计成功率均达到100%(分别为5/5和5/5),表明METL能够在极少数据条件下有效学习并推广到更高阶的突变组合。相比之下,在更具挑战性的Unobserved设置中,5突变的成功率为80%(4/5),而10突变的成功率为40%(2/5)。同时,这些Unobserved设计的荧光亮度低于野生型GFP以及Observed设置下的设计结果。

随机生成的基线序列为评估设计结果和METL-Local预测提供了重要参照。在所有设计场景中,这些随机基线序列几乎不表现出荧光活性,仅在Observed设置下的一个五突变序列中检测到荧光信号。METL-Local对该序列给出了较高的预测评分,表明其能够识别具有功能的蛋白序列。相比之下,对于其他随机基线序列,METL-Local均未给出较高评分。这说明,具有功能的METL设计序列更可能来源于模型对GFP荧光功能空间的理解,而非随机偶然产生。

此外,mKate2的荧光信号为分析设计结果提供了额外信息。由于mKate2在融合蛋白中保持不变,其荧光变化反映的是融合蛋白整体浓度的变化,因此可以间接反映GFP变体的折叠状态、稳定性、溶解性以及聚集情况。结果显示,在Observed设置下的设计序列,其mKate2荧光均高于野生型GFP,可能表明这些变体具有一定程度的稳定性提升;而在Unobserved设置下,大多数设计序列的mKate2荧光低于野生型GFP,提示其可能存在稳定性下降的问题。

2.7 METL工具的获取与使用

除了公开METL的代码、模型和数据集之外,该研究还通过多种网页接口提供了便捷的访问方式。用户可以通过Hugging Face平台下载并使用METL模型,同时还提供了基于Hugging Face Spaces的在线演示系统。基于Gradio的网页演示支持对给定的蛋白序列变体进行预测,并能够在蛋白质结构上对这些变体进行可视化展示。此外,该研究还提供了两个支持GPU运行的Colab笔记本,用于执行METL相关流程。其中一个用于加载预训练模型并结合用户提供的序列–功能数据进行微调,另一个用于利用预训练模型进行预测,其功能与在线演示类似,但更适用于大规模数据处理。这些Colab工具属于开放蛋白建模联盟的一部分。最后,METL的GitHub仓库还提供了一个Jupyter笔记本,用于在开放科学计算平台上大规模生成Rosetta预训练数据,供符合条件的研究人员使用。

3 讨论

该研究受到数十年来生物物理学、分子动力学以及蛋白质模拟研究的启发,提出了METL框架,通过利用分子模拟生成的合成数据对蛋白质语言模型进行预训练,从而构建具备生物物理认知能力的模型。这种基于生物物理的预训练信号不同于现有主要依赖天然序列或多序列比对数据的方法,后者主要捕捉与进化选择压力相关的信息。通过在大规模分子模拟数据上进行预训练,METL能够学习到具有生物物理基础的蛋白质空间表示,为理解蛋白质序列与功能之间的关系提供重要背景信息。在此基础上,经过实验数据微调的METL模型可以整合生物物理知识,从而预测蛋白质的多种性质,例如结合能力、热稳定性和表达水平。实验结果表明,METL在蛋白质工程中的多个关键任务上表现出显著优势,尤其是在小样本学习以及对未见突变进行外推方面具有较强能力,从而支持设计具有目标性质的新型蛋白质。

研究结果表明,进化数据与生物物理模拟在用于预训练蛋白质语言模型时存在重要差异,尤其体现在其对序列–功能关系建模以及实验功能预测能力上的不同表现。进化数据来源于大量天然进化形成的蛋白质序列,能够反映与生物体适应性相关的信息,包括蛋白表达、折叠、稳定性以及生物功能。然而,不同蛋白所经历的选择压力通常不明确且存在差异,同时进化模式还可能受到历史事件、系统发育偏差以及序列采样不均等因素的干扰。相比之下,生物物理模拟可以对输入序列分布进行精确控制,甚至可以包含非天然氨基酸序列,并能够直接刻画蛋白质结构与能量等基础物理属性。但需要注意的是,生物物理模拟仍然只是对真实物理过程的近似描述,并不能完全反映实际情况。

总体而言,研究发现针对特定蛋白构建的模型(如METL-Local、Linear-EVE和ProteinNPT)在性能上优于通用蛋白表示模型(如METL-Global和ESM-2)。其中,METL-Local与Linear-EVE之间的相对性能在一定程度上取决于数据集中实验结果与Rosetta总能量评分或EVE评分之间的相关性。不同蛋白性质及实验测量结果可能更贴近生物物理信号或进化信号,这为不同模型的适用场景提供了指导。METL的一个关键优势在于其能够引入功能特异的分子建模与模拟。例如,在GB1–IgG结合任务中,使用结合相关数据进行预训练的模型相较于仅基于GB1结构数据预训练的标准METL-Local模型表现更优。这一结果表明,可以进一步引入更复杂的模拟方法,例如构象变化的动态模拟、酶催化过程中的量子力学/分子力学研究、大分子机器的粗粒度建模以及用于评估结合特异性的分子对接等。此外,METL框架也可以自然扩展到多任务预测,例如同时预测GB1的热稳定性和GB1–IgG的结合亲和力,从而进一步提升模型在蛋白质工程中的应用能力。

METL-Global代表了迈向通用生物物理蛋白表示的初步探索。在小规模训练数据进行微调时,其性能与同等规模的ESM-2模型相当甚至更优。未来的改进方向包括扩大预训练所使用蛋白结构的数量和多样性,以及引入元学习策略以缓解预训练阶段的过拟合问题。在该研究中,生物物理信号与进化信号被有意分开处理,即通过从头训练METL模型并与基于进化的模型进行对比。未来的METL-Global模型可以在此基础上融合两类信息,例如以进化蛋白语言模型作为预训练基础,从而结合两种信息的互补优势,提高模型的泛化能力。尽管基于序列的蛋白质语言模型可以从进化统计中学习结构信息,但近年来许多模型已经直接引入结构信息,因此METL-Global在未来仍可继续利用这些已有知识。

以往研究通常通过将生物物理特征作为输入来结合机器学习方法,但不同于经过微调的METL-Local模型,这类方法在每次预测时都需要执行生物物理计算,从而限制了其在蛋白质设计中进行大规模序列搜索的能力。另一些相关工作则利用机器学习近似分子模拟,以获得更快的计算速度,这与METL的预训练阶段具有相似性。METL基于生物物理属性的预训练也与蛋白质稳定性预测这一长期研究问题密切相关。此外,机器学习方法也已经被整合进Rosetta系统,用于指导其采样过程。

机器学习驱动的蛋白质工程通常受到实验数据有限的约束。该研究在真实的低数据(low-N)和外推场景下验证了METL的性能。蛋白质语言模型已成为许多低样本蛋白质工程方法的重要组成部分,此外,还存在多种计算策略,例如高斯过程、增强回归模型、能够生成预训练数据的定制蛋白表示、蛋白质三维结构表示、主动学习、小样本学习、元学习、对比微调以及因果推断等方法。

GFP设计实验表明,METL能够仅基于64个训练样本进行学习,并成功泛化到远离训练数据且未探索的序列空间。在Unobserved AA设置中,METL的表现尤为突出,因为该任务要求模型推断未见突变的效应,并预测这些突变在5突变和10突变情况下的组合效果。尽管设计得到的GFP变体没有超过野生型的亮度,但其中许多表现出更高的绝对荧光信号,这表明其表达水平或稳定性有所提升。在数据有限的情况下,METL-Local所引入的生物物理先验可能通过提高蛋白稳定性间接改善设计结果,而非直接提升荧光亮度。

来自多个科学领域的研究表明,将模拟方法与机器学习相结合具有强大潜力。METL正是这一趋势下的重要探索,代表了将生物物理知识有效融入基于机器学习的蛋白质适应度预测的一步进展。该框架通过在分子模拟数据上对蛋白质语言模型进行预训练,从而学习并利用积累的生物物理知识,并且这一预训练策略将随着计算能力和分子模拟技术的进步而不断提升。METL既可以基于通用的结构和能量属性进行预训练,也可以结合更加针对特定功能的模拟数据,从而具备建模完全非天然蛋白功能的潜力,即使这些功能不存在对应的进化信号。具备生物物理理解能力的蛋白质语言模型,有望推动蛋白质设计进入新的序列–功能空间。