Isomorphic Labs 2026 | IsoDDE:对新型生物分子相互作用的高精度预测
今天介绍的这项工作来自Isomorphic Labs。生物分子之间的相互作用决定了生命体系中的信号传递、酶催化与免疫识别过程,也是现代药物发现中最关键、同时最具挑战性的研究对象之一。尽管深度学习方法在三维结构预测方面取得了突破性进展,但在面对训练数据中未曾出现的新型小分子、未知结合口袋以及复杂的诱导构象变化时,模型往往难以保持稳定的预测精度,结合亲和力的定量估计也长期依赖计算成本高昂或高度依赖人工设定的物理模拟方法。该文提出并系统评估了Isomorphic Labs研发的药物设计引擎IsoDDE,这是一个面向多种生物分子体系的统一预测框架,能够在无需人为指定结合位点的情况下,同时完成蛋白-小分子结构建模、抗体-抗原界面预测、潜在结合口袋识别以及结合亲和力的直接估计。通过一系列严格的时间切分和分布外基准测试,文章表明IsoDDE在多个关键任务上显著超越现有主流模型,在高度新颖的化学空间中依然保持较高成功率。研究结果显示,IsoDDE不仅能够准确捕捉隐匿口袋和诱导契合等复杂现象,还在亲和力预测上达到甚至超过传统物理方法的表现水平,为面向新靶点和新作用机制的理性药物设计提供了一种具有可扩展性的高精度计算基础。

获取详情及资源:
0 摘要
生物分子相互作用的预测是理性药物设计的基础,然而在新颖化学空间中同时实现接近实验精度的预测能力与良好的泛化性能,仍然是当前研究中的关键瓶颈。尽管以AlphaFold 3为代表的深度学习方法显著推动了结构预测的发展,基准测试表明,现有模型在泛化至尚未探索的分子空间、定量估计结合亲和力以及在缺乏先验信息的蛋白表面识别分子结合位点等方面,仍然存在明显局限。为应对这些问题,该研究提出了Isomorphic Labs药物设计引擎IsoDDE,这是一个旨在系统性解决上述挑战的统一计算框架。结果表明,在具有高度挑战性的蛋白-小分子泛化基准上,IsoDDE的预测准确率相较AlphaFold 3提升超过一倍,能够成功建模诱导契合等复杂的分布外事件,并准确识别此前未知的结合口袋。在生物大分子体系中,IsoDDE同样显著优于现有模型,在抗体-抗原界面预测和CDR-H3环结构建模任务上建立了新的性能水平。对于小分子配体,IsoDDE给出的亲和力预测结果甚至超过了公认的物理模拟金标准方法,在避免传统物理流程高昂计算代价的同时,显著缩小了与实验级精度之间的差距。这些结果表明,IsoDDE为人工智能药物设计提供了一个具备良好扩展性的基础平台,能够以此前难以企及的预测精度支持对全新生物体系的探索。
1 引言
生物分子之间相互作用的表征,包括蛋白质、小分子配体以及DNA等,是揭示生命体系中生物学机制的基础,并且通过对这些相互作用的干预,能够实现对生物功能的调控以及疾病状态的纠正。尽管目前已经发展出多种实验技术用于研究生物体系,但在计算机上以接近实验精度对生物分子相互作用进行刻画,仍然是实现可扩展且可靠药物设计过程中最核心、也最具挑战性的难题之一。
近年来,深度学习模型在生物分子相互作用建模方面取得了显著进展,并常与多种计算化学工具相结合使用。这一进展主要得益于对三维结构进行高精度预测与建模能力的提升。AlphaFold-Multimer的提出使得蛋白-蛋白复合物及其结构层面的相互作用得以系统建模,而随后发布的AlphaFold 3则进一步确立了一类新的结构预测模型,能够比传统对接方法更准确地刻画关键的生物分子界面,其中包括小分子配体和抗体这两类最重要的治疗手段。此后,大量借鉴AlphaFold框架的结构预测模型相继出现,旨在复现并扩展这一类方法的预测能力。
尽管取得了上述进展,多项基准测试表明,现有模型在泛化到尚未探索的分子空间时仍然存在持续性的失败。即使是AlphaFold 3,在抗体-抗原对接任务中的失败率依然超过50%。相关评估还显示,当前的共折叠模型在很大程度上依赖于对已知小分子结合模式的记忆,一旦面对全新的结合口袋,性能便会显著下降。此外,即便能够给出较为准确的结构预测,这些结果往往难以直接转化为相互作用强度的定量指标,例如
在该报告中展示了一种在预测精度和新颖化学空间泛化能力方面实现显著跃迁的方案,直接回应了上述限制。弥合泛化能力上的差距,为面向首创新靶点和新型调控机制的药物设计引擎提供了关键的基础层支撑。该药物设计引擎在具备高保真预测能力的同时,还结合了在庞大分子设计空间中进行搜索与优化的生成能力。该文重点介绍了Isomorphic Labs药物设计引擎IsoDDE预测核心的一部分内容,该系统以高精度模拟为出发点,为实现有效的生成式药物设计奠定了必要前提(图1)。
下面的结果从多个不同任务维度展示了IsoDDE的预测能力。
-
在蛋白-小分子结构预测方面,在Runs N’ Poses蛋白-配体共折叠基准中与训练数据差异最大的子集上,IsoDDE的共折叠预测准确率相比此前的最优方法AlphaFold 3提升超过两倍。同时,该模型能够成功刻画训练集中未曾出现的复杂分布外现象,例如隐匿结合口袋的开启等诱导构象变化。
-
在抗体-抗原结构预测任务中,IsoDDE在界面建模精度上同样表现出显著提升。在一个高度具有挑战性、且完全独立于训练集的抗体测试集上,IsoDDE在高质量预测结果所占比例方面分别超过AlphaFold 3约2.3倍,超过Boltz-2约19.8倍。此外,在互补决定区重链第三环CDR-H3的结构预测这一关键难题上,IsoDDE也达到了当前最优水平,相较AlphaFold 3和Boltz-2分别取得约1.2倍和1.6倍的性能提升。
-
在结合亲和力预测方面,该方法在贴近真实药物化学场景的基准测试中超越了现有的主流深度学习模型,并且在适合进行物理模拟的精选数据集上,其预测性能甚至超过了自由能微扰这一被广泛视为金标准的物理方法。
-
在结合口袋识别任务中,IsoDDE在通用测试集上的AUPRC指标相较常用的开源方法P2Rank提升约1.5倍,成功识别出以往只能通过实验手段发现的新型结合口袋。该文后续内容将对上述各项结果进行更为系统和详细的阐述。

图1|IsoDDE的部分核心能力展示。 左图显示,在Runs N’ Poses基准测试中,针对训练集中未出现的小分子及结合口袋,IsoDDE在结构预测方面实现了显著跃升,其准确率相比此前的最先进方法AlphaFold 3提升超过一倍。中图表明,IsoDDE具备稳健的泛化能力,在配体结合口袋识别任务中整体优于现有主流方法。右图展示了IsoDDE在结合亲和力预测方面的性能,其结果超过了包括FEP+在内的公认物理模拟金标准方法。
2 结构建模
理性药物设计的基础在于对靶标及其相互作用分子之间几何关系的精确认识。为此,该研究在多种不同类型的分子界面和基准测试任务上,系统评估了IsoDDE在结构建模方面的预测能力。
2.1 相关工作
自2024年发布以来,AlphaFold 3在结构预测领域始终保持领先地位。围绕该模型,研究从模型架构、数据构建以及训练策略等多个方面展开改进探索,试图在提升预测性能的同时增强模型的可控性。为此,相关工作在评估IsoDDE时,不仅将其与AlphaFold 3进行对比,也纳入了多种近期提出的改进模型作为参照。
为了增强用户对预测过程的控制能力,多项研究引入了条件化建模机制。例如,有方法提出了稳健的结合口袋条件约束策略,也有研究通过引入表位映射、交联质谱等实验约束信息,使模型能够在预测过程中结合外部实验线索。进一步的工作扩展了可控性的范围,包括根据实验手段类型进行条件化、融合多链模板信息以及施加距离约束等。此外,部分模型在推理阶段加入了引导机制,用于修正诸如立体化学错误等物理不合理现象。
在模型结构层面,多种AlphaFold 3的复现版本仍然保留了以成对表示为核心的三角运算模块,并通过生成式扩散模型对嵌入表示进行处理。相关改动主要可分为两类,一类侧重于超参数设置和信息流路径的调整,另一类则尝试从新的视角重新审视生成建模的整体形式。例如,有研究通过重排多序列比对模块中的计算顺序,改善单体表示与成对表示之间的信息传递,也有工作对扩散模块和置信度预测头进行了系统修改,或引入融合物理先验的流式建模方案,以及更宽的成对表示结构。除此之外,不同模型还在蒸馏数据的组合方式、裁剪尺度调度以及损失函数设计等方面进行了探索,但这些变化与最终性能之间尚未建立清晰而稳定的对应关系。
在计算效率方面,提升模型吞吐量的研究主要集中在复杂度为
总体而言,尽管模型的可控性和计算效率已有明显改善,新一代通用结构预测模型在不附加额外条件的情况下,并未在整体预测精度上取得实质性突破。IsoDDE在模型架构与训练策略上的改进,则代表了自AlphaFold 3发布以来,首次在无条件预测精度和泛化能力上实现的显著跃迁。
2.2 蛋白-小分子泛化能力的评估
Runs N’ Poses基准被提出用于评估蛋白-小分子共折叠模型在远离训练集样本时的泛化能力。该基准通过两类指标刻画样本与训练数据之间的差异程度,其中结合口袋相似性基于口袋残基的序列一致性进行度量,配体相似性则依据分子形状叠合程度进行评估。整个基准数据集由在AlphaFold 3训练截止日期之后发布的蛋白-小分子复合物结构组成,并按照其与训练集中最近邻样本的相似度划分为不同区间。研究在与AlphaFold 3相同训练截止条件下,对IsoDDE在各相似度区间内的预测准确率进行评估,并将结果与AlphaFold 3及Runs N’ Poses基准中已报道的其他模型进行对比。评估过程中,每个目标从25个采样结果中选取置信度最高的单一预测作为最终结果。图2的结果显示,在与训练集相似度最低、同时也是泛化难度最大的区间内,IsoDDE的性能提升尤为显著,在其余区间中同样表现出稳定且明显的改进。
针对Boltz-2模型的对比分析在第1.4节中基于该基准的一个子集给出。部分AlphaFold 3的复现工作采用了不同的结果聚合方式,但未在完整的Runs N’ Poses基准上报告置信度最高单一预测的表现,因此无法在各相似度分层区间内进行直接对比。此外,已有研究在该基准上的报告结果整体低于AlphaFold 3的表现。

图2|IsoDDE在Runs N’ Poses基准上的表现表明,其在最具挑战性的泛化任务中实现了显著提升。 图中绘制的是按置信度排序后最高预测结果的成功率,横轴上方的数字表示各相似度区间内的样本数量。A为完整数据集的结果,B为按照既有标准进行聚类并过滤掉124种高频配体后的结果。该文所报告的IsoDDE模型与AlphaFold 3采用相同的训练截止日期,并在样本相似度分区的定义上保持一致。更多补充结果见图14,而IsoDDE相较AlphaFold 3的性能提升分析则汇总于表4中。
在最具挑战性的相似度区间
IsoDDE结构预测能力的一个重要组成部分在于为每个预测结果提供相应的置信度评分,从而能够评估已知配体预测结果的可靠性。补充材料中的进一步分析展示了模型性能随置信度变化的关系,表明该置信度指标在实际应用中具有良好的参考价值。

图3|来自最低相似度区间
2.3 FoldBench基准上的对比评估
表1|结构预测模型在FoldBench基准上的性能比较。 表中给出了各方法在完整FoldBench数据集上的预测成功率,评估对象为每个目标中置信度最高的单一预测结果,数据集包含2023年1月之后发布的全部样本。对于蛋白-蛋白和抗体-抗原结构预测任务,成功率定义为DockQ≥0.23的样本比例;对于蛋白-小分子任务,成功标准为结合口袋对齐后重原子RMSD小于2 Å且LDDT-PLI大于0.8。

FoldBench数据集为在2023年1月13日之前数据上训练的结构预测模型提供了一个额外的评测基准,并通过相似性过滤,去除了与该日期之前结构高度相似的样本。表1给出了在该基准上IsoDDE与多种外部模型的对比结果,其中IsoDDE采用与AlphaFold 3一致的训练截止日期进行训练。对比结果表明,IsoDDE在抗体-抗原、蛋白-小分子以及蛋白-蛋白三类结构预测任务中均展现出更为优越的整体性能。除IsoDDE、SeedFold和Protenix-v1之外,其余模型的评测结果均来自FoldBench官方网站。SeedFold的结果引自相关研究工作,而Protenix-v1的结果则由其开发团队提供。
2.4 与Boltz-2的对比评估
Boltz-2模型是在Boltz-1基础上的进一步改进版本,为评估IsoDDE在结构预测方面的能力提供了一个重要的对照对象。由于Boltz-2仅使用2023年6月1日之前发布的PDB数据进行训练,因此无法直接在完整的Runs N’ Poses基准上进行评测。为此,研究在该基准中构建了一个训练截止日期之后的可用子集,并基于与Boltz-2训练集的相似性对样本进行标注。在这一可比子集上的结果如图4所示,IsoDDE整体表现优于Boltz-2,尤其是在最具挑战性的相似度区间

图4|IsoDDE与Boltz-2在Runs N’ Poses基准中、基于Boltz-2训练截止日期之后样本的性能对比。 相似度区间的划分以Boltz-2训练集为参照,即使用2023年6月1日之前发布的PDB结构计算样本相似性。图中展示的是按置信度排序后最高预测结果的成功率,横轴上方的数字表示各相似度区间内的样本数量。A为完整数据集的结果,B为在聚类基础上进一步过滤掉124种高频配体后的结果。IsoDDE与Boltz-2之间性能差异的进一步定量分析汇总于表5中。
除蛋白-小分子结构预测外,研究还进一步在IsoDDE所支持的其他关键分子界面和链类型上进行了对比评估。参照AlphaFold 3测试集的构建流程,研究从2024年1月1日之后发布的PDB结构中筛选出满足总体规模、数据质量及与训练集相似度要求的样本,并按相似性进行聚类,构建了新的结构预测测试集。图5的结果不仅揭示了AlphaFold 3及其复现版本在多类关键界面上的性能差异,也展示了IsoDDE在不同任务上的整体进展。针对蛋白-小分子预测,评估同时报告了两种情形下的结果,一类将偏离理想局部几何结构的预测视为失败并加以过滤,另一类则允许这些偏差存在。IsoDDE在这两种评价标准下均取得一致的表现水平,从而有效避免了生成局部配体几何结构不准确的问题。

图5|在低相似度、经聚类处理的样本上,三类主要分子界面的结构预测结果比较。 图中结果对应于每个目标在25次采样中置信度最高预测所达到的评价指标,其中Boltz-2的预测置信度采用其iPTM分数进行排序,
2.5 抗体-抗原界面
在蛋白-蛋白复合物中,抗体-抗原界面被认为是结构预测中尤为困难的一类。这一难度主要源于抗体互补决定区环,尤其是CDR环在序列与结构上的高度多样性,以及抗原表位本身所具有的构象依赖特性。为进一步评估模型在该类问题上的预测能力,研究构建了一个专门的抗体-抗原结构测试集,其中包含334个在训练数据中未出现过的新型抗体-抗原界面。新型界面的判定标准包括两种情形之一:抗原表位相似性低于40%,其中表位相似性定义为表位序列一致性并结合表位口袋重叠程度进行加权;或抗体所有CDR环的整体序列一致性低于70%,相关细节在补充材料中给出。
与此前的最先进模型AlphaFold 3相比,IsoDDE在该任务上展现出显著的性能跃升。在高精度预测区间(DockQ>0.8)内,IsoDDE达到39%的成功率,分别较AlphaFold 3和Boltz-2提升约2.3倍和19.8倍,相当于解锁了此前难以通过建模手段覆盖的约22%和37%的新型抗体设计空间。在判定为正确预测的区间(DockQ>0.23)内,仅使用单一随机种子,IsoDDE即可成功预测63%的抗体-抗原界面,相较AlphaFold 3和Boltz-2分别提升约1.4倍和2.2倍。值得注意的是,IsoDDE在原子级精度上的提升同样体现在CDR-H3环的建模中,其在测试集中有70%的抗体CDR-H3主链RMSD不超过2 Å,而AlphaFold 3和Boltz-2分别为58%和43%,对应约1.2倍和1.6倍的性能提升。

图6|通过扩展推理阶段的计算规模,抗体-抗原结构预测性能得到显著提升。 结果基于一个低同源性的抗体-抗原测试集
已有研究表明,通过增加推理阶段的计算规模可以提升抗体-抗原结构预测的性能。在此基础上,当使用1000个模型种子并根据置信度进行排序时,IsoDDE在该测试集上的表现进一步提升,在DockQ正确预测和高精度预测中的成功率分别达到82%和59%,同时具有高精度CDR-H3预测的抗体比例提升至84%。随着种子数量的增加,IsoDDE和AlphaFold 3的性能均呈现出持续改善的趋势。尤为引人注目的是,即便仅使用单一种子,IsoDDE在DockQ和CDR-H3预测上的表现仍优于AlphaFold 3和Boltz-2在使用1000个种子时的结果。
在几乎所有测试样本上,IsoDDE获得的DockQ分数均与AlphaFold 3相当或更高,其中最显著的性能提升集中出现在AlphaFold 3预测效果不佳的困难靶标上,进一步凸显了IsoDDE在泛化能力方面的优势。为直观展示这一点,研究选取了三个具有代表性的高难度抗体-抗原案例,在这些案例中,IsoDDE均明显优于AlphaFold 3的预测结果,相关示例见图7。

图7|抗体-抗原结构预测的典型案例对比,展示了AlphaFold 3与IsoDDE的预测结果。 左图为纳米抗体与OmpA蛋白的结合结构(PDB:9FZD),中图为Fab片段与小鼠IL-38的结合结构(PDB:8Q3J),右图为纳米抗体与钾离子通道TREK-2的结合结构(PDB:8QZ2)。上排为AlphaFold 3的预测结果,其中抗原以灰色表示,抗体重链为蓝色,轻链为浅蓝色;下排为IsoDDE的预测结果,其中抗原以绿色表示,抗体重链为粉色,轻链为浅粉色。所有预测中均以白色叠加显示实验测定的真实抗体结构。
第一个案例对应PDB编号9FZD,该结构描述了一种纳米抗体与细菌外膜蛋白A(OmpA)的结合构象。IsoDDE对该纳米抗体-OmpA界面的预测结果达到了0.943的DockQ值,CDR-H3环的主链RMSD为0.94 Å。相比之下,AlphaFold 3给出的最高置信预测DockQ为0.00,CDR-H3主链RMSD高达4.98 Å。造成这一差异的主要原因在于AlphaFold 3将纳米抗体错误地放置在OmpA膜蛋白的另一侧。在PDB数据库中,此前并不存在OmpA与纳米抗体形成复合物的结构记录,训练数据中最接近的纳米抗体或抗体样本在CDR序列上的一致性为61%,而最相近的抗原表位相似性仅为38%。
第二个案例为PDB编号8Q3J,该结构展示了一段抗体Fv与小鼠IL-38的结合。训练数据中与该抗体最接近的样本在CDR序列上的一致性为81%,而最近的表位相似性为33%。IsoDDE对重链与抗原界面的预测DockQ为0.876,同时CDR-H3环的主链RMSD为0.78 Å。如图7所示,AlphaFold 3在该体系中的共折叠结果将重链与轻链相对于实验结构发生了翻转,导致DockQ仅为0.060,而IsoDDE的预测结果则与实验结构保持了高度一致的构象重叠。
最后一个案例对应PDB编号8QZ2,该结构涉及一种纳米抗体与钾离子通道TREK-2的结合。此前PDB中并不存在该离子通道与抗体或纳米抗体形成复合物的结构,而IsoDDE训练数据中与之最接近的抗原表位相似性仅为36%。在这一高度新颖的场景下,IsoDDE给出的最高置信预测构象DockQ为0.683,CDR-H3主链RMSD为0.67 Å,而AlphaFold 3的最高置信预测结果则未能得到正确构象。
3 结合亲和力
尽管三维结合构象的确定是基于结构进行分子设计的前提条件,但实现有效的分子优化还依赖于对相互作用强度的定量估计。为弥补这一关键环节,IsoDDE提供了对结合亲和力进行直接量化预测的能力。该节重点评估IsoDDE在不同化学系列中的配体结合亲和力预测表现,分析其是否能够超越简单的二分类判断,实现对化合物效力的精细排序。
3.1 相关工作与挑战
在药物设计过程中,同时准确预测生物分子相互作用的空间结构及其相互作用强度是一项核心挑战。分子指纹模型在早期研究中被广泛用于先导化合物优化,其基本思路是基于已测量的相似配体数据,预测给定配体与特定靶标之间的结合亲和力。这类方法能够从实验数据中提取结构-活性关系的定量信息,从而在一定程度上加速药物发现流程。然而,其适用范围本质上受限于与训练数据相近的化学空间,并且高度依赖针对具体靶标开展的大量实验数据积累。
分子动力学方法则可以通过物理模拟直接估计配体-蛋白复合物的结合自由能,即自由能微扰方法。这类方法通常被视为计算预测配体-蛋白结合常数的金标准,但其应用同样受到多方面限制。一方面,分子动力学模拟的计算代价极高,难以在大规模分子设计任务中广泛使用;另一方面,该类方法对初始构象的准确性和体系构建过程的严谨性要求极高,使得其在实际应用中需要大量人工干预和专业经验。
3.2 评估策略
自深度学习方法被引入以来,多项研究尝试构建通用的配体-蛋白结合预测模型,既包括基于序列信息进行建模的方法,也包括直接利用三维结构信息的模型,例如基于空间特征的神经网络或对接势能模型。然而,随着相关研究的深入,人们逐渐认识到,对深度学习模型进行公平且可靠的基准评估并非易事。近期针对现有数据集偏倚问题的系统分析表明,许多算法在评测中所表现出的性能优势,往往受到数据内在偏差的显著影响。例如,生物活性数据集中通常包含大量同系化合物系列,其中多个分子具有高度相似的活性特征。在这种情况下,若采用简单的数据划分方式,模型在测试阶段可能会遇到与训练集高度相似的化合物,从而导致性能评估结果被人为放大。
为尽量缓解上述问题,研究在结合亲和力预测的评估中采用了与结构预测评测相似的策略,即基于明确的时间节点对数据进行切分。具体而言,以2023年1月1日作为划分界限,该日期之后收录的实验测定数据被进一步划分为验证集和测试集。这种时间切分方式虽然无法完全消除生物活性数据中固有的偏倚,但更贴近药物发现中的实际应用场景,能够模拟模型在面对全新研究问题时的真实表现。
此外,为实现与其他机器学习方法在公开基准数据集上的公平对比,研究在训练过程中完全移除了FEP+ 4和OpenFE等公开评测集中涉及的所有蛋白靶标数据。通过这一处理,确保了后续比较结果不受训练数据泄漏的影响,从而更准确地反映不同方法在结合亲和力预测任务中的真实泛化能力。
3.3 结果
为评估IsoDDE在贴近真实药物研发流程的计算场景中的表现,研究对ChEMBL 35中所有新近收录的实验测定数据进行了结合亲和力预测。如图8所示,IsoDDE在不同类型靶标上均保持了较高且稳定的预测性能。进一步与物理模拟方法进行对比的结果如图9所示,在FEP+ 4、OpenFE以及近期CASP16盲测结合亲和力预测任务这三项公开基准中,IsoDDE在整体表现上显著优于所有对比的机器学习方法。更为引人注目的是,即便考虑到物理模拟方法通常基于晶体结构作为起点,IsoDDE在部分评测中仍然能够超越这些公认的物理方法。

图8|在ChEMBL 35时间切分数据集上,按蛋白类别划分的性能评估结果。 柱状图展示了IsoDDE与Boltz-2在六类蛋白靶标上预测结合亲和力与实验测定值之间的平均Pearson相关系数

图9|IsoDDE在结合亲和力预测任务中显著优于现有的机器学习方法,并且在部分基准测试上甚至超过了计算代价高昂的物理模拟方法,例如OpenFE。 相关基准数据集的具体构建与说明见第4.5节。
尽管基于时间切分的评估结果充分展示了IsoDDE在药物发现应用中的潜力,但这种划分方式并不能完全保证切分节点之后的实验数据与训练集在化学结构上不存在高度相似性。为此,图10a进一步分析了预测性能随样本新颖程度变化的趋势,其中相似性定义为每个实验中所有配体相对于训练集的最大分子指纹相似度的平均值。结果表明,IsoDDE在化学空间新颖性不断增加的情况下,整体性能仍然保持较好的稳定性。图10b则通过一个具体案例展示了IsoDDE的泛化能力,该案例涉及一种此前未见的蛋白靶标及其对应的全新化学系列,进一步验证了模型在高度新颖场景下的预测可靠性。

图10|IsoDDE性能分析。 左图展示了在ChEMBL 35数据集中,模型在不同配体相似度区间内的性能稳定性。相似度通过Morgan指纹计算,定义为每个实验中所有配体相对于训练集的最大Tanimoto相似度的平均值,并据此划分为低相似度
4 蛋白配体可结合性
前述的共折叠建模与结合亲和力预测能力并不依赖于事先指定配体的结合位点,即所谓的结合口袋。然而,在不提供配体信息的前提下识别蛋白中所有潜在结合口袋,将为分子设计带来更为独特且重要的可能性。结合口袋的识别能够揭示可用于分子设计的完整作用机制空间,无论是针对尚缺乏功能注释的首创新靶点,还是为已被充分研究的蛋白探索全新的调控方式,都具有关键意义。基于这一背景,研究将无先验条件下的结合口袋识别作为扩展人类可配体化蛋白组的重要步骤,并系统评估了IsoDDE在盲口袋识别任务中的预测能力。
4.1 相关工作与挑战
结合口袋的识别是基于结构进行药物设计中的一项基础性难题。早期方法主要从几何角度出发,发展出了基于网格和探针的算法体系,随后逐步引入进化保守性信息以及基于能量的打分函数,以提升对潜在结合位点的识别能力。随着研究的深入,分子动力学工具的发展使得对蛋白构象柔性和瞬态结构状态的刻画成为可能,从而能够捕捉在静态结构中难以观察到、但对分子识别至关重要的结合口袋。
近年来,深度学习方法在结合口袋识别领域逐渐占据主导地位,相关工作采用的模型架构涵盖从三维卷积神经网络到具备等变性质的图神经网络等多种形式。尽管这些方法在表达能力上取得了显著提升,但其对预定义特征和显式结构输入的依赖,在一定程度上限制了模型对全部潜在配体结合口袋空间的系统性刻画。已有综述指出,这一局限使得现有方法在探索蛋白可结合性的完整图景时仍然存在明显不足。
4.2 结果
IsoDDE在无需已知配体信息的情况下,展现出识别新型且具有可配体性的结合口袋的能力。鉴于目前尚缺乏统一且现代的社区级基准,同时结合口袋识别问题本身也不存在单一的标准化表述形式,为系统展示模型的泛化能力,研究构建了一个与IsoDDE结构模型训练时间截点一致的测试集。模型性能通过对已知结合口袋残基的排序能力进行评估,其中已知口袋残基定义为距离配体任一原子5 Å以内的残基,评价指标采用精确率-召回率曲线下面积AUPRC。所有在训练过程中出现过的口袋均被排除在评测之外。该任务中,IsoDDE与P2Rank这一被广泛使用且长期位居前列的开源模型进行了对比评估。
如图11所示,IsoDDE即便在与训练集相似度较低的蛋白上,仍然保持了稳定且较高的预测性能。研究进一步在隐匿口袋子集中评估了模型表现。此类口袋在无配体状态下往往不存在、被遮蔽或难以检测,但在配体结合后由于构象变化而显现并具备结合能力。尽管在该子集上的整体性能有所下降,如图11右侧所示,IsoDDE依然显著优于P2Rank。这一能力在整体上显著拓展了人类蛋白的可配体化空间,不仅为治疗干预提供了新的作用位点,也为已知靶标探索超越传统活性位点和正构位点的全新调控机制创造了条件。研究还通过对近期文献的回顾性分析进一步展示了这种预测能力,在该分析中,模型推理阶段的唯一输入仅为蛋白序列,相关结果见图12。

图11|IsoDDE在结合口袋识别任务中整体优于常用的开源模型P2Rank,并且在与训练集序列一致性较低的靶标上仍表现出良好的泛化能力。 结果表明,IsoDDE能够识别被认为并不显而易见的结合口袋,这一点在测试集中隐匿口袋子集上的性能提升中尤为明显。随机基线方法的构建过程在补充材料中给出。图中误差线表示均值的95%置信区间。

**图12|对近期一项报道在Cereblon(CRBN)蛋白上发现新型隐匿结合位点的研究进行的回顾性分析。 **左图展示了IsoDDE在无配体状态下对CRBN结构的表面网格剖面,颜色梯度表示模型预测的残基层面作为配体结合残基的概率。中左图将同一残基层面的预测概率叠加至文献中报道的结构上,结果表明,在仅以CRBN序列作为输入且未指定任何配体身份的情况下,口袋识别信号即可同时准确定位已知结合位点和新发现的隐匿位点。图中以浅绿色显示的晶体配体包括来那度胺(上方,已知位点)和SB-405483(下方,新型隐匿位点)。中右图展示了在未施加口袋条件约束的情况下,IsoDDE将指定配体来那度胺和SB-405483与蛋白共折叠后的结构表面剖面。右图进一步将该共折叠结果与文献中的实验结构PDB编号9SFM进行对比,可以观察到模型不仅正确预测了结合口袋的位置,同时也给出了两种配体的准确结合构象。相比之下,P2Rank仅在口袋已经形成之后才能识别该位点,其在无配体结构中的口袋概率仅为0.010,而在配体结合后的结构中才上升至0.518。
将该口袋识别能力应用于CRL4 E3泛素连接酶复合物中一个研究较为充分的底物受体Cereblon时,模型在未事先获知诱导口袋形成的配体身份的情况下,成功预测出了一个隐匿结合位点的位置。尽管将预测信号直接叠加在无配体结构上时看似缺乏直观意义,但当该信号投射到近期获得的配体结合晶体结构中时,可以观察到其沿着整个口袋深度呈现出高度一致的分布特征。进一步地,在明确配体身份后,结构模型能够在不施加口袋条件约束的情况下,正确地将配体共折叠至对应口袋中,其中SB-405483的RMSD为0.33 Å,来那度胺的RMSD为0.12 Å。对所有与Cereblon序列一致性高于30%的PDB结构进行检索表明,在该研究发表之前,尚未有任何配体被观测到结合于SB-405483所对应的位置。补充材料中进一步描述了结合口袋识别能力的一个前瞻性应用示例,其中利用全数据集密度分析方法开展晶体浸泡实验,对一种解旋酶的配体结合事件进行了系统刻画。
5 总结
该文展示了IsoDDE在多项关键预测任务中的部分核心能力。结构预测方面的结果表明,IsoDDE自AlphaFold 3发布以来首次在整体性能上实现了具有阶段性意义的提升,使得在多种分子作用模式下对高难度靶标开展基于结构的药物设计成为可能,并显著提高了分子筛选与优先级判定的可靠性。与此同时,IsoDDE在结合亲和力预测以及新型结合口袋识别方面所展现出的高精度表现,为设计全新分子提供了关键工具支持,使药物设计者能够以前所未有的精度在广阔的化学空间中进行探索与优化。