Science 2026 | 人工智能如何重塑蛋白质工程

今天介绍的是发表在 Science 上的一项研究工作。该研究聚焦于蛋白质工程领域中长期存在的核心挑战——如何在极其庞大的序列空间中高效寻找具备特定功能的蛋白质。传统方法如定向进化和计算蛋白设计虽已取得进展,但在搜索效率与预测准确性方面仍存在明显瓶颈。在此背景下,人工智能方法被引入,通过生成模型、性质预测模型以及条件概率建模,实现对蛋白质序列空间的高效探索与精准筛选。研究系统梳理了从序列生成、结构设计到性质预测等多个关键技术路径,并强调了基于统计视角的统一建模框架。结果表明,AI显著提升了蛋白设计的命中率与效率,在蛋白结合体设计等任务中已实现数量级提升,但在酶设计、无序蛋白建模等复杂问题上仍存在挑战。该工作为理解AI驱动蛋白工程的范式转变提供了重要参考,也为未来智能化生物设计奠定了理论基础。

获取详情及资源:

0 摘要

在过去几十年中,蛋白质工程已逐步发展为一个独立学科,其进步主要受到计算建模与高通量湿实验的推动,并在治疗、诊断、农业和制造等多个领域展现出广泛应用价值。

近年来,人工智能的引入进一步推动了蛋白质工程的发展,使得在高维序列空间中高效搜索具有特定性质的蛋白成为可能。相关进展主要体现在多个方面:包括对序列、骨架结构以及原子层面的生成式建模;在通用模型基础上进行定制,以实现具有特定功能的蛋白设计;通过建模提取蛋白质表征并对候选序列进行评分;以及开发用于文库设计的方法,其中涵盖对合成过程约束的考虑。

上述进展体现出当前方法的共同特征,即可通过统计学视角对现代人工智能方法进行统一理解与解释。

1 引言

鉴于蛋白质是所有生命形式的核心驱动因素,人类长期以来一直试图对其进行改造。蛋白质通过催化和调控几乎所有生物过程,从能量代谢到基因调控,同时还提供细胞结构,从而赋予基因组以功能。通过改造天然存在的蛋白质,可以使其执行新的功能,甚至可以为特定应用场景设计全新的蛋白质。蛋白质工程使得新型治疗手段和疫苗的开发成为可能;能够设计出对环境胁迫具有更强抗性的植物,并提升碳固定效率;还可以实现抗生素及功能材料的低成本生物制造。在众多科学领域中,蛋白质工程在社会层面的潜在影响范围极为广泛。

自然进化在数十亿年间逐步塑造了生命中的蛋白质,而蛋白质工程的目标是在大幅压缩的时间尺度内——以年计,甚至在人工智能的辅助下以天计——构建具有特定性质的蛋白质。为实现这一目标,人工智能出现之前发展出了两种不同路径的方法:定向进化和计算蛋白质设计,这两者分别在2018年和2024年获得诺贝尔奖认可。定向进化通过反复进行突变和人工设定的选择过程,对自然进化机制进行强化和加速,并以湿实验测量作为指导。该方法需要一个具有初步相关功能的起始蛋白,但不依赖生物物理建模。相比之下,计算蛋白质设计完全依赖基于蛋白质结构数据库统计信息的近似生物物理模型,不一定需要具备完整序列的功能性起始蛋白。该方法在蛋白质序列和结构空间中进行计算探索,并借助近似的基于物理的能量函数作为统一的适应度评价体系。该能量函数用于评估任意蛋白质序列在三维构象下的稳定性,从而实现蛋白质结构乃至蛋白质相互作用的有效设计。然而,该模型的精度仍然较为粗略,难以捕捉复杂的蛋白质动态行为或对酶催化至关重要的量子力学效应。

上述两类方法均需面对一个根本性难题,即在极其庞大的蛋白质空间中进行搜索。每个蛋白质可以视为由20种氨基酸构成的序列,长度通常达到数百。即便是仅包含100个氨基酸的较小蛋白,其可能的序列数量也高达20100≈10130,远远超过宇宙中原子总数约1080的估计值。此外,在这些可能的序列中,只有极少一部分能够正确折叠并实现表达。

从本质上看,定向进化与计算蛋白质设计均通过在蛋白质空间中搜索并对变体进行评分来发挥作用。定向进化通过直接与目标蛋白性质相关的实验测量进行评估,但这一过程成本高昂、耗时且劳动密集,因此其通量受限,且主要局限于探索与起始蛋白序列相近的区域。相比之下,计算蛋白质设计能够在更广泛的蛋白质空间中进行快速且低成本的搜索与评分,但其依赖单一能量函数对所有设计任务进行评估,而该函数难以充分描述依赖蛋白质动态或精细催化机制的设计问题。因此,这两种方法具有互补性,通常结合使用,例如利用定向进化对计算设计得到的候选进行进一步优化。人工智能的引入已渗透至这两类方法之中,使得二者之间的界限逐渐变得模糊。

1.1 人工智能为蛋白质工程领域带来的核心期望

在概念层面主要体现在对“搜索”和“评分”两个关键环节的改进。一方面,旨在以更高效率在庞大的蛋白质序列空间中进行探索,通过进行更大幅度且更具策略性的跳跃,而非依赖小幅随机扰动,从而发现传统方法难以触及的序列;另一方面,旨在以更低成本和更快速度,对目标蛋白质性质进行预测(例如表达水平、稳定性和活性),并在具体问题场景下达到足够实用的精度,以反过来指导更高效的搜索过程。在蛋白质工程中,“性质预测”和“适应度预测”两个术语常被交替使用,尽管其含义存在差异但彼此相关。

围绕上述问题展开分析,首先从最直观的角度出发,即基于计算环境中的适应度函数进行简单搜索;随后过渡至利用生成模型开展人工智能引导的搜索方法,并进一步扩展至条件生成模型。不同方法往往可以从多个视角进行理解。在此概念框架基础上,进一步深入分析当前人工智能在蛋白质工程中的应用,包括蛋白质变体生成、变体评分、表征学习以及文库设计等方面。受篇幅与引用限制,诸如模型参数规模扩展、基于智能体的工程方法,以及相关法律与伦理问题等重要方向未能展开讨论。

2 模型

2.1利用计算环境中的性质预测模型导航搜索空间

从直观角度来看,人工智能如何帮助在蛋白质序列空间中实现更高效的移动?假设存在一个针对序列s的计算环境适应度函数,用于评估某种适应度指标y(例如催化效率),其形式为y=f(s)。目标是在给定阈值τ的条件下,寻找满足y=f(s)>τ的序列。该适应度函数可以来源于生物物理模型,也可以基于机器学习构建。最简单的搜索(即优化)策略是从某一初始序列出发,在序列空间中进行随机且无指导的突变,计算f(s),选择适应度较高的突变体,并重复这一过程,这一过程类似于定向进化。该方法属于一种基于计算环境的进化算法,用于函数优化。需要注意的是,这种突变策略并未利用f(s)的信息,而这些信息本可用于指导更高效的搜索路径。

表1|符号说明汇总

在现代由人工智能增强的进化算法中,突变序列不再通过随机方式生成,而是由序列生成模型提出,例如在序列空间上定义的概率密度模型,如变分自编码器,其形式为spϕt(s),其中参数ϕt会在每一轮搜索迭代t中更新。在每一轮迭代中,生成模型会基于采样序列及其对应的适应度评分进行再训练。初始阶段,该模型生成的突变仍然不依赖于f(s),类似于定向进化和传统进化算法。然而,随着迭代推进,更新后的生成模型逐渐学习到哪些序列在f(s)下具有更高评分,并据此实现更智能的搜索,例如通过协调多个突变以反映f(s)中的上位性效应。因此,随着生成模型逐步逼近适应度景观的结构,其生成的突变序列在适应度上不断提升。最终,通过在第T轮迭代得到的生成模型中进行采样,即spϕT(s),即可获得目标蛋白质序列。值得注意的是,从朴素搜索到人工智能引导搜索的转变,本质上是将“直接搜索序列s”替换为“搜索能够刻画目标序列分布的生成模型参数”,从而引入了概率建模框架,并开启了生成模型方法的应用。

当上述计算环境中的适应度函数来源于监督式机器学习模型,即y=fθ(s),其中参数θ由数据学习得到时,该模型在远离训练数据分布的序列空间区域通常缺乏准确性。因此,有必要通过引入先验或辅助信息来约束搜索过程,即对pϕt(s)的更新进行控制。这类辅助信息可以包括序列的“类蛋白性”、蛋白质稳定性,或预测模型fθ(s)的训练数据分布等。如果这些信息可以表示为概率分布p0(s)(例如通过在大规模蛋白质数据库如UniRef上训练得到),则可以在人工智能引导搜索过程中显式纳入这些先验知识。该方法称为自适应采样条件化,在优化pϕt(s)以寻找高评分序列的同时,引导搜索集中于p0(s)所偏好的序列区域。最终,同样通过从收敛后的生成模型中采样spϕT(s)得到目标蛋白质序列。

当计算环境中的适应度函数具有概率解释形式,即fθ(s)=pθ(yYs)(这一形式在多类监督学习模型中较为常见)时,自适应采样条件化可以视为一种结合两个模型的统计过程:一是编码先验信息的无条件生成模型p0(s),二是性质预测模型pθ(ys)。该方法本质上执行贝叶斯法则,从而得到条件分布pϕT(s)=p(syY),其中yY表示目标性质满足特定条件,例如某酶在特定反应中的催化效率超过给定阈值。随后可通过对该条件分布进行采样以获得目标蛋白质。

从根本上看,基于人工智能的蛋白质工程目标在于精确估计并从“性质条件化”的序列概率分布中进行采样,即从满足设计约束集合Y的条件分布中采样序列s,形式上表示为sp(syY)

图1|基于统计视角的AI蛋白质工程 序列设计可视为从目标条件分布 p(s | y ∈ Y) 中对序列 s 进行采样。集合 {si} 表示从序列生成模型中重复采样得到的一组序列(以 i 为索引)。集合 Y 例如表示高于某一阈值 τ 的荧光值 y(以绿色虚线表示)。设计分布可通过从合适数据中直接估计目标条件分布获得;也可通过实验数据对已有的通用蛋白模型进行调制得到。图中展示后一种策略:预训练生成模型 p(s) 编码背景知识,并结合实验数据构建预测模型 p(y ∈ Y | s)。两者通过贝叶斯法则进行组合:p(s | y ∈ Y) ∝ p(s)p(y ∈ Y | s),其中 ∝ 表示成比例关系。培养皿和流式细胞仪图标基于 Creative Commons 许可(CC0)进行修改与使用。

2.2 获得条件生成模型的三种方式

前文讨论了如何利用编码于模型中的辅助知识,对基于计算环境适应度函数的人工智能引导搜索进行约束,这构成了通向条件生成模型的一条路径。在蛋白质工程中,也可以从另一角度理解条件生成建模:以某种通用模型为起点(例如在UniRef上训练得到的“全蛋白”模型),再根据特定工程目标对其进行性质条件化。在前述内容中,已经简要介绍了一种获得条件生成模型的方法,即自适应采样条件化。更一般地,主要存在三种获取条件生成模型的策略,具体如下。

在最直接的方法中,预先确定需要进行条件化的性质类型(例如酶学分类编号、二级结构、对特定配体的结合能力),并在训练阶段将这些条件变量直接融入生成模型,即直接估计pθ(sy1Y1,,ykYk)。该方法的局限在于必须提前确定所需的条件变量,并且在模型训练时需要具备足够的监督数据。因此,当需要引入新的条件变量或利用新增数据时,往往需要对模型进行重新训练,而该模型规模可能较大。

当未在初始阶段显式引入条件信息时,通常需要将已有的无条件模型pϕ(s)与监督式性质预测模型pθ(ys)进行结合,从而得到目标条件分布,这一思路正如自适应采样条件化所体现的。只要能够正确地将这两类模型结合以获得p(sy),本质上都是在应用贝叶斯法则:

p(sy)=p(ys)p(s)p(y)=p(ys)p(s)sp(ys)p(s)

该方法的一个优势在于具备“即插即用”的能力,即可以利用在大规模数据上训练得到的通用蛋白模型,并在后续任意时间针对特定性质进行调整。然而,其难点在于贝叶斯公式中的分母通常需要对所有可能序列进行求和,在计算上难以实现,因此通常需要借助变分推断或复杂的采样方法进行近似。此外,基于变分推断的方法往往需要迭代训练新的生成模型(例如自适应采样条件化中的pϕT(s)),虽然计算成本较高,但仍是重要工具之一。与此相关的直接偏好优化方法同样通过迭代训练生成模型,并利用偏好排序模型对先验信息进行调制,其形式与贝叶斯更新具有相似性。

是否可以在避免计算贝叶斯分母以及重新训练生成模型的前提下,仍然实现从条件分布sp(syY)中采样?答案是肯定的,这引出了第三种策略,即“在线”条件化。在该方法中,无需训练新的生成模型,而是在采样过程中利用性质预测模型对无条件模型进行引导,从而有效实现对目标条件分布的采样,而无需显式表示该分布。但这一方法通常需要较为昂贵的迭代采样过程。该策略常用于扩散模型及相关模型(如流匹配、得分匹配和随机插值模型)。这些模型的核心在于估计对数密度的梯度xlogp(x),而非直接估计密度p(x)。因此,从分布中采样需要通过数值方法沿梯度逐步推进。然而,这一框架的优势在于,当结合性质预测模型并应用贝叶斯法则时,梯度操作能够消除难以计算的分母项(因为其与x无关)。具体而言,其迭代更新形式为:

xt+1=xt+xlogp(xt)+xlogp(yYxt)

其中第一项来自无条件模型,第二项为由性质预测模型提供的“引导”信息。

需要指出的是,上述基于梯度的在线条件化方法主要适用于连续空间变量或可近似为连续变量的情形,例如原子的三维坐标。而生物序列属于离散空间,无法进行连续微扰,只能通过突变实现变化。为解决这一问题,可以将离散变量映射至连续空间,或学习其连续潜在表示,从而应用标准的梯度生成模型。此外,也可以针对序列直接构建扩散或流匹配模型,这类方法通过估计“速率矩阵”(而非xlogp(x))来描述在生成过程中各位置选择特定氨基酸的概率。最新研究表明,这类基于掩码噪声过程的模型在序列任务中与掩码语言模型和自回归模型具有等价性,从而简化了训练与生成流程。

除了基于引导的在线条件化方法,还可以采用经典的马尔可夫链蒙特卡洛方法进行采样。然而,该方法要求模型似然函数能够高效估计(即使仅精确到常数项),因此在扩散模型等场景中往往不具备实际可行性。

上述三种条件化策略均受到训练数据规模、质量与适用性,以及模型参数化方式和训练策略的影响。值得注意的是,常见的一种做法是对无条件模型进行再训练,使其在某一特定数据子集(例如具有高催化活性的序列集合)上进一步优化,即所谓“微调”。该方法并不对应于一种严格的统计条件化操作,即并未明确刻画无条件模型与性质分布之间的信息融合关系。尽管在实践中有一定效果,但基于统计学的条件化方法提供了更为清晰的理论框架,有助于理解不同信息源的组合方式,并支持更加系统化的模型设计。此外,已有研究表明,这类微调方法在外推至未见性质范围时可能存在困难。

在另一类相关研究中,即“主动学习”方法,可以利用人工智能策略决定下一步需要在实验中测量的变体,从而逐步提升f(s)的预测准确性。

2.3 蛋白质工程中生成模型应用概览

在阐述了条件生成建模的关键概念之后,进一步对这些方法在蛋白质工程中的具体应用进行更为深入的梳理。一种常见的划分方式是区分“从头设计”与“再设计”两类方法:前者旨在在没有完整已知蛋白质作为起点的情况下构建全新蛋白质,后者则以已有蛋白质为基础进行改造。然而,实际情况中,许多为其中一类任务开发的人工智能工具也常被应用于另一类任务,因此这种划分界限正逐渐变得模糊。此外,当所谓的“从头设计”方法依赖于大量已有蛋白质数据进行训练时,其是否仍可严格定义为从头设计也值得探讨。基于上述原因,在后续分析中不再以这一分类作为主要组织框架。

2.4 从家族特异模型到全蛋白序列生成模型

生成具有特定功能的新蛋白序列的一种方法,是基于某一功能性野生型蛋白及其同源序列的统计特征进行采样。在一个典型案例中,选择了一条变构酸变位酶的野生型序列,并据此筛选出一组被认为在进化上与其相关的序列。基于这些序列构建多序列比对,并用于训练Potts模型,这是一类无条件概率密度模型pθMSA(s),通常仅在由该多序列比对定义的单一蛋白家族上进行训练。该模型在隐式上以用于构建多序列比对的野生型序列作为条件。训练完成后,通过该模型采样生成蛋白变体,并在大肠杆菌中表达,随后测定其酶活性。结果表明,这些变体的活性分布与多序列比对中蛋白的活性分布相似。

然而,该方法本身难以直接对生成序列的性质进行精细调控,仅能通过调整“温度”参数来影响分布的熵。此外,该方法依赖数据库中已有的天然同源序列,并且与定向进化类似,需要一个良好的起始序列(即野生型)。尽管如此,这一结果表明,从数据库中筛选出的进化相关序列为构建目标蛋白家族的功能多样性提供了坚实基础。同时,这类方法也可以为定向进化提供替代性的起始序列。

Potts模型及其更高容量的扩展模型(如变分自编码器)通常需要针对每一个蛋白家族分别训练。然而,鉴于UniRef数据库中涵盖了所有已知蛋白家族的海量序列,更理想的做法是构建一个统一的全蛋白模型,在一次训练中同时包含所有家族序列,从而实现跨家族的信息共享。MSA Transformer及其相关模型Neural Potts model正是基于这一思路构建,它们对来自UniRef50的所有多序列比对建立概率密度模型pθ(siMSA)。这些模型的应用主要体现在接触预测和结构预测任务上,而非用于序列采样,随后该领域很快被AlphaFold2所主导。

尽管如此,全蛋白序列建模的思想在无需多序列比对的形式下得以延续,并发展为更为通用的“语言模型”。其中,ESM2及其他掩码语言模型虽然已被用于序列生成,但在严格意义上并不属于可正确采样的生成模型。这类模型仅在训练时掩码比例覆盖0%至100%的情况下才能进行严格的概率采样,而ESM2采用固定的15%掩码率,因此不满足这一条件。相比之下,其后续模型(如ESM3)以及覆盖完整掩码范围的模型,可以进行严格采样,自回归模型与扩散模型同样具备这一能力。

ESM3在三种主要模态上进行训练:蛋白质序列、全原子层面的离散化结构表示,以及基于文本的功能注释。此外,还发展出多种多模态模型,延续了ProstT5和SaProt的思路,将序列与离散化结构信息进行联合建模。这类方法中的结构离散化处理普遍基于FoldSeek所提出的相关思想。

2.5 骨架生成模型

在从头蛋白质工程中,继承自传统计算蛋白质设计的一种典型人工智能工作流程是:首先通过骨架生成模型采样蛋白质骨架结构bp(b),随后将每一个结构b作为输入提供给以骨架为条件的序列生成模型(即“逆折叠”模型),从而采样蛋白质序列sp(sb)。这一两步过程可以通过概率链式法则加以解释,即通过分解形式s,bp(sb)p(b)实现对联合分布p(s,b)的采样。以下首先介绍骨架生成模型,再进一步讨论逆折叠方法。

早期已有多种骨架生成模型被提出,其中部分模型针对特定任务(如抗体)进行训练,也有采用扩散模型的方法,但这些模型既未在蛋白质结构数据库上进行大规模训练,也缺乏实验验证。首批经过实验验证的骨架生成模型——Chroma与RFdiffusion——均基于扩散模型,并在完整的蛋白质结构数据库上进行训练,从而推动了其在蛋白质工程领域的广泛应用。扩散模型从蛋白质骨架三维坐标的噪声分布开始采样,这些初始坐标并不对应任何真实折叠结构,随后通过逐步去噪过程,将其演化为具有明确结构的骨架坐标。这一逐步向结构收敛的过程通过跟随梯度blogpθt(b)实现,其中t表示扩散时间,最终时刻t=tfinal对应训练数据分布的对数密度梯度。扩散模型训练的关键在于学习一个“去噪”模型,该模型能够从扩散过程中间阶段的带噪骨架样本中恢复出无噪声结构,而这一过程本质上与对blogpθt(b)的估计密切相关。

若无法针对特定性质进行条件化,这类骨架生成模型的实用性将受到限制。例如,可能希望生成能够与小分子、蛋白质、DNA或RNA结合的结构。在RFdiffusion中,对已知蛋白质结构中的特定基序(如活性位点或结合界面)的条件化是在训练阶段直接嵌入的;而配体结合口袋的生成则通过在线条件化实现。Chroma则完全采用在线条件化策略。这两类模型均可针对对称性、几何特征、结合目标或功能基序(包括表位结合基序和酶活性位点)进行条件化;此外,Chroma还支持基于自然语言注释的条件输入。需要注意的是,与所有生成模型一样,生成结果对目标性质的符合程度受限于训练数据质量。在基于引导的条件化方法中,这一能力取决于用于引导采样的预测模型性能;而在训练时嵌入条件的情况下,则取决于模型在训练阶段从监督数据中提取信息的能力。

骨架生成模型的评估仍具有挑战性。常用指标之一是“可设计性”,即将生成的骨架输入逆折叠模型以设计氨基酸序列,再将所得序列输入结构预测模型(如AlphaFold2),利用其置信度指标评估该序列是否可能真实折叠为对应骨架结构。然而,该评估过程会受到逆折叠模型和结构预测模型偏差的影响,而这些模型通常偏向于天然蛋白质分布,而目标往往是探索超出这一分布范围的结构空间。

2.6 逆折叠模型

如前所述,骨架生成模型通常与逆折叠模型p(sb)配合使用,以获得与生成骨架结构相匹配的蛋白质序列。逆折叠模型最初在骨架生成模型出现之前提出,旨在缓解传统基于能量函数的方法在侧链构象填充方面存在的问题。早期模型奠定了后续方法的发展基础。这类模型以蛋白质三维骨架结构的图表示作为输入,并在建模过程中引入几何信息,同时满足物理三维空间中的基本性质,例如旋转不变性。

逆折叠模型在早期并未得到广泛应用,直到后续在远大于最初约2万条CATH蛋白链的数据规模上进行训练后,才逐步普及。代表性模型ProteinMPNN和ESM-IF1均在蛋白质结构数据库中约20万对序列—结构数据上训练,其中ESM-IF1进一步引入AlphaFold数据库中的序列—结构对,使总数据量达到约1200万。两者均为自回归模型,其中ProteinMPNN属于“任意顺序”自回归模型,可以在固定部分氨基酸的情况下对序列任意位置进行采样。后续研究通过引入特定任务数据,对ProteinMPNN进行了针对可溶性蛋白、耐热蛋白以及配体结合蛋白的专门优化。此外,一些骨架生成模型还能够在给定序列条件下,预测侧链扭转角χ的分布p(χs),从而实现全原子层面的结构建模。

当前大多数逆折叠模型在概念上存在两个主要不足,这两点均源于训练数据通常采用“单一结构—单一序列”的配对方式,而实际关系应为多对多。首先,由模型生成的序列可能更倾向于折叠为不同于给定骨架的结构。理想情况下,应为每个序列关联一组可能的结构,并根据其概率加权,因为蛋白质通常具有多个构象状态,理论上应基于该序列的Boltzmann分布进行条件化。然而,目前尚缺乏大规模的多构象数据。尽管理论上可以借助从序列预测构象集合的模型来缓解这一问题,但相关方法仍处于发展初期。其次,由于同一结构可能对应多个序列,当前模型在采样时可能损失序列多样性。因此,可以考虑在训练过程中引入多个对应同一结构的序列,例如使用包含目标序列及其同源序列的多序列比对,以增强模型对“多序列对应单一结构”关系的感知,但这些序列并不一定完全共享相同结构。

逆折叠模型的性能难以通过计算模拟或大规模实验进行准确评估,这使得模型之间的比较较为困难。常用的计算指标为“序列恢复率”,即在给定天然蛋白骨架结构时,模型能否恢复其原始序列。通常认为约50%的恢复率优于约30%的水平。然而,当该指标过高时,可能意味着模型记忆了结构到序列的映射关系,而未能学习更广泛的序列分布。此外,该指标无法反映蛋白质的构象空间特性,而这才是实际关注的重点。

另一常用指标是“重折叠”评分,即将生成序列输入结构预测模型(如AlphaFold)后,评估其是否能够恢复目标骨架结构。然而,该指标同样可能受到结构预测模型本身偏差的影响。由于这些评价指标均存在局限性,难以准确判断模型优劣,也无法明确引入额外结构预测数据对模型性能的真实影响。

此外,许多目标蛋白包含重要的无序区域,例如抗体中负责结合功能的环区。在缺乏结合伙伴及其复合构象信息的情况下,当前逆折叠模型在处理此类问题时能力有限。

尽管逆折叠模型是从头蛋白质工程的重要组成部分,其也可以独立于骨架生成模型使用,例如在给定野生型结构的条件下,为某一蛋白家族生成新的序列。

2.7 序列与结构的联合生成

前述两步从头采样策略s,bp(sb)p(b),仅在能够对各个分解分布进行精确估计的情况下才在统计意义上严格成立。由于概率估计在实际中始终存在误差,直接对联合分布p(s,b)进行建模,可能优于分别对两个因子进行独立估计,尽管这一策略的相对优势尚不明确。

一种实现联合分布建模的方法是“全原子”建模,即在同一过程中同时生成所有原子及其三维空间位置(需要指出的是,部分分解式方法同样可以对全原子构型进行建模)。联合建模的重要实际动机之一,是能够自然地支持对特定原子构型进行条件化,例如:(i)功能基序中的原子构型,如不完全由整段氨基酸定义的活性位点;(ii)来自非蛋白结合对象的原子,例如RNA、DNA及小分子。虽然也可以通过在训练阶段显式嵌入原子级条件信息实现类似功能,但在扩散模型框架下采用全原子联合建模提供了一种更为简洁且潜在更具实用性的方案。

然而,这类联合建模在技术上具有较高难度。例如,在尚未确定氨基酸序列的情况下,如何确定需要生成的原子数量成为一个关键问题。目前已有一些方法开始尝试解决这一挑战。另一种替代思路是对骨架与氨基酸进行“协同设计”,从而避免在全原子层面同时生成所有信息,但由于未对全部原子进行显式建模,这种方法在实现对原子级基序等通用条件的支持方面可能存在局限。

2.8 用于评分与表征学习的生成模型

在某些情况下,“生成模型”并非用于生成新样本,而是用于根据模型定义的似然或其近似,对序列进行“评分”,判断其优劣。当使用生成模型对序列进行评分时,本质上是在评估该序列在统计意义上与训练数据的相似程度,这一判断依赖于所选模型的表征能力。该任务通常被称为“零样本预测”,因为在过程中未显式使用任何标注数据。例如,可以利用逆折叠模型、仅基于序列的家族模型,或全蛋白模型(可能结合多序列比对或结构信息)对序列进行评分。

在对多突变变体(相对于野生型)进行零样本评分的基准测试中,表现最优的模型通常并非仅基于单序列训练,而是引入结构信息、具备多序列比对感知能力,或同时具备两者。这类零样本评分往往能够较好反映蛋白质稳定性,同时也可能包含一定的功能信息。

生成模型的另一类用途是提取表征,例如从神经网络的某一层中提取特征表示,并将其用于后续机器学习任务(通常为监督学习),例如蛋白质结构或性质预测。需要指出的是,现有基准数据集(无论用于零样本还是监督学习)在设计空间覆盖方面存在明显不足,主要表现为突变数量有限,而这一部分恰恰是人工智能方法最有潜力拓展的区域。零样本模型还可以与文库设计方法结合使用,这将在后续部分进一步讨论。

2.9 文库设计的作用及其与合成成本的关系

即便采用前述在大规模数据上训练得到的先进机器学习模型,其预测精度仍不足以仅凭单一输出即可完成设计任务,因此通常需要构建一组蛋白质序列组成文库进行筛选。在可预见的未来,这一策略仍将持续存在。根据问题复杂性、已有信息的丰富程度以及设计涉及的序列范围,可能需要生成从数十到数百万不等的候选序列,并在实验中进行测试,才有可能获得一个满足特定性质的蛋白,更不用说筛选出多个候选先导分子。这带来了两个额外挑战:一是如何联合设计一批蛋白质变体,二是如何在设计过程中考虑基因合成成本。

蛋白质设计方法的准确性越低,所需实验验证的序列数量越多。当模型准确性降低到一定程度时,相较于精确设计并逐一合成具体序列,转而设计一个随机合成过程可能更具优势,即通过学习序列分布的参数,并将其映射为可调控的合成参数。例如,若仅指定固定长度序列中每个位点上A、C、T、G的概率分布,则在相同的合成成本下,可以生成数量级上更大的序列集合。但这种方式以降低对单个序列的精确控制为代价。即便未来合成成本持续下降,这一策略在相当长时间内仍具有实际意义。

与文库设计相关但又有所不同的问题,是基于人工智能的实验迭代设计,其中一种典型形式为机器学习引导的定向进化。该问题关注如何在多轮实验过程中,充分利用有限的时间、人力和经费预算,实现实验设计的最优策略,这一过程与前述的主动学习方法密切相关。

3 哪些容易,哪些困难?

在蛋白质工程的不同任务中,例如蛋白质结合体设计、酶工程等,目前的发展处于何种阶段?在人工智能应用之前,针对目标治疗蛋白的计算设计蛋白结合体,其命中率通常低于0.05%。随着生成模型的发展以及蛋白质结构数据库的不断扩展,在某些情况下命中率已提升数个数量级,使得实验表征可以在微孔板中常规开展,而无需依赖高强度的高通量筛选。然而,仅依赖生成模型仍不足以完成任务,目前仍高度依赖对生成蛋白进行后处理筛选,这通常包括调用基于人工智能的结构预测模型以及传统的生物物理评价标准。相较于仅针对蛋白质目标,将蛋白质设计用于识别DNA、RNA或小分子等其他生物分子仍更具挑战性,主要原因在于这些复合体系的结构数据相对匮乏。

当前成功设计的蛋白质结合体多为体积较小、结构紧凑的球状蛋白,主要由α螺旋和β折叠构成,环区较少;而天然蛋白(如抗体)往往依赖柔性环结构实现分子识别。尽管针对抗体的生成模型已展现出一定潜力,但目前尚不存在能够稳定设计柔性环区或本征无序区域的通用模型。

酶设计可能是最具挑战性的任务之一,其要求对原子层面的精确控制,包括活性位点的空间构型。对于简单且研究较为充分的反应,可以通过量子力学计算构建理想化的活性位点结构(即“理论酶”)。然而,对于更复杂的反应,通常只能从已知酶中提取活性位点,并在此基础上进行条件化生成完整酶结构。这种策略可能有助于实现结构简化、稳定性提升或单体化,但不足以用于设计全新的催化反应。此外,该方法生成的酶通常具有较低的催化活性,仍需通过定向进化进行进一步优化。

另一种基于人工智能的酶设计策略,是在不显式建模活性位点结构的情况下,直接基于功能注释(如酶学分类编号)生成酶序列。然而,这种方法难以用于设计针对未知反应的功能性酶。

4 展望与讨论

当前多数基于人工智能的蛋白质设计方法依赖蛋白质结构预测模型,这种依赖既可能体现在生成过程中的闭环调用,也可能体现在生成后的筛选环节。然而,结构预测模型本质上建立在天然蛋白质空间之上,因此在评估人工设计序列时,其适用性可能受到限制。随着结构预测技术的持续发展,这些进展有望逐步转化并推动蛋白质工程的发展。例如,近年来已出现将AlphaFold与冷冻电镜数据或分子动力学数据相结合的方法。此外,这一发展趋势也进一步表明,人工智能高度依赖高质量数据库,而这些数据的获取通常依赖成本高昂且耗时的湿实验过程。

一个长期存在的问题是,人工智能模型在多大程度上能够泛化至蛋白质空间中的“新区域”,其中“新”的定义本身就具有不确定性。鉴于这一泛化问题难以彻底消除,一种合理策略是将生物物理模型与人工智能模型进行融合:前者在整个蛋白质空间中具有相对稳定的适用性,而后者在接近训练数据分布的区域表现更优,从而实现优势互补。

在基于人工智能的蛋白质工程发展过程中,另一个关键问题在于如何评估进展。多数研究难以进行系统且现实的比较,因为这需要在实验中合成并测量蛋白质,成本极高。从更广泛的角度来看,生成模型本身也难以评估。相比之下,传统人工智能任务(如预测问题)更易于通过计算方式进行评估。例如,推动结构预测领域发展的CASP竞赛,并不要求在提交结果后进行蛋白质的实际合成与测量。理想情况下,蛋白质工程领域应构建更加完善的计算基准体系,并采用更具实际意义的评价指标,但在许多设计问题中,这本身仍然具有较大难度。同时,结合湿实验验证的竞赛形式也可能发挥重要作用。总体而言,应鼓励在新方法发布时提供更多基线对比,以支撑性能提升的结论。