NeurIPS 2023 | LinkerNet:基于三维等变扩散的片段构象与连接体协同设计
LinkerNet 是一项发表于 NeurIPS 的创新研究,首次提出在未知片段空间构象下实现“片段-连接体”协同生成的新框架。针对靶向蛋白降解(PROTAC)等分子设计中连接体优化困难的问题,研究者基于三维等变扩散模型,能够同时学习片段的空间姿态与连接体的三维结构生成过程。该模型引入了刚体力学中的牛顿–欧拉方程,用以预测片段的平移与旋转,从而在分子动力学层面实现了物理一致的构象调整。通过在 ZINC 与 PROTAC-DB 数据集上的实验,LinkerNet 在分子有效性、可合成性及能量稳定性等多项指标上均显著优于现有二维与三维生成模型,并可在无约束与受约束条件下生成高质量的低能量分子。该研究不仅拓展了分子生成任务的等变建模边界,也为基于物理规律的分子设计提供了新的思路与范式。

获取详情及资源:
0 摘要
靶向蛋白降解技术(如PROTACs,即蛋白水解靶向嵌合体)已成为选择性去除致病蛋白的重要工具。然而,该领域面临的一个关键挑战是如何设计连接体,将不同的分子片段连接起来以形成稳定的候选药物分子。现有的连接体设计模型通常假设片段之间的相对空间位置已知,但在实际情境中这一假设往往并不成立。该研究针对更一般的情况展开,即片段在三维空间中的构象未知。为此,构建了一种三维等变扩散模型,能够同时学习片段构象与连接体三维结构的生成过程。通过将片段视为刚体,设计了一个基于刚体力学中牛顿-欧拉方程的片段构象预测模块。在ZINC与PROTAC-DB数据集上的实验证明,该模型能够在无约束与有约束的生成条件下生成具有化学有效性、可合成性及低能量的分子。

图1 | 展示了在PROTAC设计中片段构象并非固定的示例。 上方的两个子图分别展示了两种PROTAC分子,它们的一个片段与BRD4靶蛋白结合,另一个片段与CRBN E3连接酶结合。两者的连接体在结构上存在差异,其中一个包含“COC”基序。
1 引言
靶向蛋白降解(Targeted Protein Degradation, TPD)技术(如PROTACs,即蛋白水解靶向嵌合体,以及分子胶等)正逐渐成为选择性去除致病蛋白的强大手段。这类技术通常由多个分子片段通过连接体相连而成,每个片段分别与特定的蛋白结合。例如,一个PROTAC分子包含三个部分:用于靶向特定蛋白的配体(即warhead)、能够招募E3泛素连接酶的配体以及连接两者的连接体。PROTAC通过诱导靶蛋白的泛素化过程实现降解,即小分子泛素被连接到靶蛋白上,从而标记其由蛋白酶体进行降解。与传统的小分子抑制剂不同,后者通过结合蛋白活性位点暂时性地抑制其功能,而PROTAC能够实现靶蛋白的彻底清除,因此具有选择性高、副作用小以及能够作用于以往被认为“不可成药”的蛋白等优势。然而,设计高效的PROTAC仍面临巨大挑战,尤其是在优化连接体方面,连接体在维持分子构象稳定性及其他关键生物性质中起着至关重要的作用。
近年来,计算方法,特别是深度学习技术,被广泛应用于连接体设计中,以加速药物研发进程。许多研究利用三维结构信息以提高设计精度。例如,Delinker模型通过引入锚定原子之间的距离与角度信息,利用分子图生成二维连接体;进一步的3DLinker与DiffLinker模型直接在三维空间中操作,分别基于条件VAE与扩散模型生成连接体。这些模型普遍假设片段之间的相对位置已知,这一假设在传统的基于片段的药物设计中是合理的,因为片段通常被设计为结合同一蛋白口袋,其结合构象具有较强的确定性。然而,在涉及两个蛋白(例如PROTAC中的靶蛋白与E3连接酶)时,片段之间的相对位置往往难以确定,因为蛋白-蛋白结合的构象具有较高的灵活性,如图1所示。因此,在连接体设计过程中需要动态调整片段的空间构象。
一种潜在的解决方案是随机采样多个片段构象,并针对每种构象分别设计三维连接体。然而,这种做法将片段位置固定,从而限制了连接体设计的自由度。由于化学键形成的空间范围极为有限,在固定构象条件下可能无法找到稳定的连接体。迄今为止,还没有计算方法能够在未知片段相对位置的情况下有效解决这一三维连接体设计问题。
该研究首次尝试同时协同设计片段构象与三维连接体。将每个片段视为一个刚体,其构象由中心位置与旋转角度表示;连接体则表示为一个三维分子图,包括原子位置、原子类型与键类型。为解决这一协同设计问题,提出了LinkerNet模型——一种基于三维等变扩散的生成模型,结合了最新的等变扩散建模与黎曼流形扩散模型的研究进展。该模型能够同时学习片段构象与连接体的生成过程,从而生成稳定且能量较低的整体分子结构。
此外,设计了一个基于刚体力学中牛顿-欧拉方程的片段构象预测模块。该模块利用神经网络预测原子间力,并通过聚合神经力与力矩来更新片段的中心位置与旋转角度。同时,引入了两个引导项以约束片段间距离与潜在锚定点,从而将现实化学约束融入模型中。
在ZINC与PROTAC-DB数据集上的实验结果显示,该模型能够在无约束与有约束的生成条件下生成具有化学有效性、可合成性与低能量的分子。
该研究的主要贡献包括:
- 提出了首个放弃传统PROTAC设计中不切实际假设的计算模型;
- 构建了一个三维等变扩散模型,在统一框架下实现片段构象与三维连接体结构的协同设计;
- 开发了一个基于刚体力学牛顿-欧拉方程的片段构象预测模块,能够准确调整片段的中心位置与旋转;
- 通过在ZINC与PROTAC-DB数据集上的综合实验,验证了模型在无约束与有约束条件下的优越性能。

图2 | 不同连接体设计设定的概览。 (a)/(b):以往研究主要集中于在固定片段构象条件下的二维或三维连接体设计。(c):该研究关注片段构象与连接体的协同设计。
2 相关工作
分子连接体设计
分子连接体设计是理性化合物设计中的关键环节。SyntaLinker方法基于分子SMILES表示,将连接体设计建模为句子补全问题。然而,由于缺乏三维结构信息以及SMILES表示本身的局限性,该方法的性能受到限制。DeLinker与Develop模型通过在分子图上进行操作,并引入锚定原子之间的距离与角度信息作为附加结构特征,部分克服了这一不足。然而,它们所利用的结构信息仍较为有限,生成过程依然停留在二维空间中。最近提出的3DLinker与DiffLinker模型分别基于条件VAE与扩散模型,能够直接在三维空间中生成连接体。但这些方法普遍假设片段的构象已知,而在实际情况下,尤其是在新兴的靶向蛋白降解技术中,这一假设往往并不成立。该研究则关注更为一般的连接体设计问题,即片段构象未知的情境。
PROTAC连接体设计
蛋白水解靶向嵌合体(PROTAC)是一种相较于传统小分子抑制剂更具优势的前沿技术。最早的PROTAC概念验证研究发表于文献[38]。目前,大多数PROTAC连接体设计策略依赖于经验性优化,仅在少数主要化学基序之间进行组合调整。目前尚无公认的去 novo(从头)PROTAC连接体设计原则。文献[48]尝试利用深度强化学习以促进理性化PROTAC设计,但其仍基于SMILES序列进行生成,而非在三维空间中生成真实分子结构。
扩散生成模型
扩散生成模型通过从先验噪声分布中学习去噪过程,实现了在图像、文本等领域的卓越生成性能。近年来,研究者将其引入分子数据建模中,结合旋转与平移等变性,用于分子构象生成、三维分子生成以及基于结构的药物设计等任务。此外,扩散模型已被扩展至黎曼流形,为分子构象生成、分子对接、抗体设计以及蛋白-配体结合亲和力预测等领域带来了新的进展。基于这些在等变扩散模型与流形扩散建模方面的成果,该研究提出了一种用于片段构象与连接体协同设计的扩散模型,并在模型中引入了针对任务的网络与采样机制设计,包括受物理启发的片段构象预测模块与受约束的连接体采样策略。

图3 | LinkerNet单步去噪过程的概览。 模型首先利用等变图神经网络(GNN)更新连接体原子的位置信息
3 片段构象与连接体协同设计
该节介绍LinkerNet模型,该模型通过三维等变扩散机制实现片段构象与连接体的协同设计。首先在3.1节定义相关符号并形式化描述问题;随后在3.2节中将联合分布分解为位置、旋转以及原子与键类型的乘积,并阐述其扩散过程的构建方式;3.3节介绍用于片段与连接体去噪的等变网络结构及基于物理启发的预测模块;最后在3.4节描述模型在受约束生成条件下结合引导采样的应用方式。
3.1 符号与问题定义
在该模型中,每个分子片段表示为一个三维分子图
每个片段在全局坐标系下的构象由旋转变换
连接体表示为一组原子类型、键类型与原子全局坐标的集合
给定两个全局构象未知的分子片段
其中神经网络参数化为
3.2 扩散过程
扩散概率模型包含两个马尔可夫链:正向扩散过程与反向生成过程。扩散过程通过逐步向数据中注入噪声,使数据分布逐渐趋近于噪声分布;而生成过程则学习如何从噪声分布中恢复原始数据分布。根据变量类型的不同,联合分布
位置上的扩散
设连接体原子位置
在此定义下,可高效地从噪声数据分布
其中,
片段旋转上的扩散
片段旋转
从
其中,
原子与键类型上的扩散
参照文献[18],采用分类分布对离散的连接体原子类型
同样,可以以闭式形式计算
其中,
3.3 等变与物理启发的神经网络
似然函数
对于等变的转移过程,模型采用三维等变图神经网络(3D Equivariant GNN)
在该式中,首先根据局部到全局的坐标变换,将
等变连接体去噪过程
其中
物理启发的片段构象预测
一种直接的方式是预测局部坐标系下的不变构象变化
这一技巧常用于蛋白结构预测任务。应用于该模型时,利用
然而,该方法未能充分利用几何信息,因此模型能力受到限制。考虑到片段被视为刚体且局部坐标不变,更自然的做法是借鉴刚体力学原理进行构象预测。
牛顿-欧拉方程描述了刚体的平移与旋转动力学,其在质心坐标系中的矩阵形式为:
其中
在该模型的片段构象预测模块中,神经网络输出作用于每个片段原子
其中
其中
可以看出,所预测的力与力矩充分利用了系统的几何信息,并且对全局刚体变换保持等变性。此外,预测得到的片段构象同样具有全局等变性且独立于局部坐标系的选择。最终的训练损失由多项组成,包括连接体原子位置与片段中心位置的MSE损失、旋转矩阵的差异损失以及连接体原子与键类型的KL散度损失。更多的理论证明、训练细节与完整的训练及采样算法见附录。
3.4 受约束生成与引导采样
前文介绍的LinkerNet适用于片段构象完全未知的情况。然而,在实际场景中,通常可以获得一定的先验信息,例如片段间的距离应处于合理范围内,或用于连接的锚定原子应从特定候选集合中选取等。为了将这些约束条件纳入生成过程,模型借鉴了分类器引导(classifier guidance)的思想,在采样阶段执行引导采样。
在此问题设定下,对于条件
片段距离约束
假设片段间的期望距离范围为
该项确保片段中心间的距离保持在合理区间内,从而避免构象坍塌或结构过度分离。
锚点接近约束
为了生成完整且化学上有效的分子,至少应有一个来自候选锚点集合的原子与连接体原子形成化学键,而不在锚点集合中的原子则不应与连接体原子相连。此原则可通过以下锚点接近引导项表示:
其中
除上述“软约束”外,还可在采样阶段施加“硬约束”,即通过键掩码(bond mask)限制连接体与片段间的可连接区域。例如,将
通过上述距离与锚点引导机制,LinkerNet能够在保留生成灵活性的同时满足化学合理性约束,从而生成更稳定、可合成且结构合理的三维分子。

基线模型
为进行基准测试,将该研究提出的模型与三种现有方法进行比较:DeLinker、3DLinker与DiffLinker。DeLinker是一种基于二维分子图的生成模型,而3DLinker与DiffLinker分别基于变分自编码器(VAE)与扩散模型的三维生成模型。由于目前尚无能够同时完成片段构象与连接体协同设计的生成模型,该研究在比较时通过随机采样片段旋转并向片段中心位置添加噪声,然后将这些噪声化片段输入上述模型以生成连接体。
评估指标
在ZINC与PROTAC-DB数据集上,分别为每个片段对生成250个与100个样本以供后续评估。模型性能从二维分子图与三维构象两方面进行评价。
在二维层面,报告标准指标包括生成分子的有效性(validity)、唯一性(uniqueness)与新颖性(novelty),以及分子恢复率(recovery rate,即成功还原参考分子的比例)。此外,还评估药物相似性(QED)与合成可行性(SA)等与理化性质相关的指标。
在三维层面,为评估分子构象质量,首先对生成分子进行MMFF优化,并报告每个片段对在优化前的平均最小能量
此外,为分别分析模型在连接体与片段构象生成方面的性能,还进行了另一项受约束的MMFF优化实验:在优化过程中固定片段原子,仅对连接体部分进行调整。此时报告优化后的平均中位能量
4.2 无约束生成结果
在无约束生成实验中,对基线模型的输入片段进行随机旋转采样,并在片段间距上加入高斯噪声(标准差为原距离的0.1倍)。随后,过滤掉出现原子冲突的初始片段,并为每个片段对保留250个有效的初始构象供基线模型生成使用。为保证公平比较,所有模型的连接体原子数量均与参考分子保持一致。对于DeLinker与3DLinker,由于其原始模型依赖锚定原子信息,因此在实验中为其提供锚点数据;而DiffLinker与该研究的模型则不使用该信息。
从表1可观察到,该模型相较于其他三维连接体生成模型(3DLinker与DiffLinker)能够生成更多化学上有效的分子。虽然在唯一性与新颖性指标上得分略低,但这主要归因于形成低能量稳定分子的化学连接体设计空间本身受限。模型的分子恢复率达到24.5%,而DiffLinker由于无法同时设计片段构象与连接体,其恢复率为零;DeLinker与3DLinker因使用锚点信息而获得更高恢复率。在QED与SA指标上,该模型明显优于其他方法,表明生成的连接体在药物相似性与可合成性方面更加合理。
在三维结构相关的评估指标中,该模型生成的分子能量与RMSD均显著低于其他基线模型,充分证明了所提出建模方法的有效性。
由于第3.3节中提出的基于物理启发的片段构象预测模块被认为更具有效性,因此进行了消融实验(见表2),以进一步分析各组成部分的作用。实验中将基于牛顿–欧拉方程的更新公式(式16)与式12中基于局部坐标系平移变化的预测方法进行对比。
首先,结果显示基于牛顿方程的片段平移预测效果更佳,而在局部坐标系中预测平移变化会导致采样过程中出现严重漂移现象(即片段彼此距离过远)。这一问题在(a)与(c)两组实验中表现明显,其生成分子的能量与RMSD值显著升高。尽管此类模型仍能学习到使连接体原子分别与每个片段形成键,从而在二维指标(如分子有效性与恢复率)上取得较合理的分数,但其三维构象质量较差。
其次,从(b)与(d)两组结果可看出,基于欧拉方程的片段旋转预测能够获得更低的能量与RMSD,说明该设计增强了模型的表示能力,并能更准确地预测旋转构象。图4进一步绘制了旋转预测的训练损失曲线,可见当采用基于欧拉方程的旋转预测时,损失函数按预期逐渐下降,而对照设计的损失几乎保持不变,从而验证了该模块设计的有效性。

4.3 受约束生成结果
在受约束生成实验中,模拟了真实的PROTAC连接体设计场景。由于两个片段分别需与靶蛋白与E3连接酶结合,可用于连接的锚定原子只能从片段原子的子集中选取。此外,连接体长度对PROTAC的选择性具有重要影响,因此需要限定片段间的距离范围。为此,将真实锚点原子及其两跳以内的邻近原子定义为候选锚点集合;片段中心距离约束设为
在生成阶段,采用第3.4节中描述的引导采样与硬约束键掩码机制。对于基线模型,片段间距在约束区间内均匀采样,并随机选取候选集合中的锚点原子。连接体原子数量的采样方式遵循其原始论文中的设定。由于公开的预训练3DLinker模型无法支持如PROTAC这类大分子图的连接体生成,因此未将其纳入对比。
表3展示了在PROTAC-DB数据集上的受约束生成结果。可以看到,该模型在分子有效性与恢复率上均取得更高的成绩,并在三项三维指标(
为分析各引导项对模型性能的影响,进一步进行了消融实验(见表4)。结果显示,当不使用引导采样时,模型会在部分片段对上生成不合理的三维连接体,导致平均能量

5 总结
该研究提出了LinkerNet模型,用于三维片段构象与连接体的协同设计,这是首个针对这一更具普适性与挑战性的连接体设计任务的工作。模型的局限在于尚未直接引入片段旋转约束,也未在建模中显式考虑蛋白质环境。这些方面将在未来的研究中具有重要的改进与拓展价值。