JMC 2025 | 基于结构的三维小分子药物生成:我们到哪一步了?
今天介绍的这项工作来自 Journal of Medicinal Chemistry。该研究系统评估了多种三维结构驱动的小分子生成模型,核心问题是:这些算法生成的分子,是否真的“化学合理且类药”,而不仅仅是对接打分高。研究团队基于 ChEMBL 环系频次和 ZINC20/ZINC22 中 Bemis–Murcko 骨架的出现情况,提出了骨架层面的化学合理性指标,并将七种生成模型的产物与三类对照集(已上市药物、ChEMBL 临床分子、crossdock 配体)进行比较,发现生成分子在骨架合理性、类药性等方面整体明显逊于对照。进一步从分子量、环系类型、手性中心、OH/NH 官能团数量、合成可行性以及 3D 构象质量等多个维度分析,揭示了当前生成模型普遍存在脂环过多、芳环偏少、手性过度复杂、氢键供体过多以及出现化学不稳定/不现实结构等问题,而常用的 PAINS、QED、SA 等指标对这些问题的识别能力有限。针对三个典型靶标与高通量虚拟筛选(HTVS)的对比也表明,即便生成分子可以取得较好的对接打分,其整体化学合理性和类药性仍不及 HTVS 命中分子。研究最终指出,现有 3D 结构生成模型对化学先验的学习远未到位,未来方法需要将化学合理性与可合成性约束显式纳入训练与评估,并结合更加真实多样的蛋白–配体数据集及片段/反应库与后处理“修复”策略,才能真正服务于实际药物发现。

获取详情及资源:
- 📄 论文: https://pubs.acs.org/doi/10.1021/acs.jmedchem.5c01706
- 💻 代码: https://github.com/jianingli-purdue/Benchmarking_gene_model/tree/main
0 摘要
基于结构的药物设计(SBDD)在新药临床前发现阶段中发挥着关键作用。近年来,出现了一类基于结构的生成算法,它们利用靶标蛋白结合口袋的结构来生成新的、具有类药性质的小分子,从而期望简化并加速 SBDD 流程。然而,目前缺乏有效的定量指标来评估这些算法生成分子的“化学合理性”,这在一定程度上制约了相关方法的进一步应用。该研究提出了两个用于评估生成分子化学合理性的新指标,并表明现有结构生成算法可能产生在化学上不合理的结构,其性质分布也与已知类药分子存在差异。研究团队进一步将这些结果与三个靶标(c-SRC 激酶、Smoothened 受体和多巴胺 D1 受体)的虚拟高通量筛选所得 hits 进行了对比。该研究提出的指标和分析方法为评价生成分子的化学合理性和类药性提供了有价值的工具,从而有望提升基于结构的分子生成在药物发现中的应用效果。
1 引言
由于药物发现过程通常耗时且昂贵,人们一直在努力加速这一过程、降低相关成本并提高成功率。近年来,人工智能和机器学习(AI/ML)的快速发展推动了大量新方法应用于药物发现,其中生成式 AI 尤其引人关注。如果生成式 AI 能够直接依据治疗靶点的信息(如序列、结构和作用机制等)设计小分子候选药物,无疑将非常具有吸引力。然而,一个关键问题是:目前是否已经达到了这一水平?换句话说,研究人员是否已经能够直接将 AI 生成的分子用于临床前甚至临床阶段的研究?为此,该研究工作提出了两个新颖的指标,用于评估基于三维(3D)蛋白靶点结构生成的分子的化学合理性。一般而言,基于结构的生成模型会在训练过程中学习蛋白−配体相互作用的特征,然后针对预定义的三维结合口袋生成多个预期能够结合的小分子三维结构(图1)。

图1 | 展示了基于结构的生成算法的一般工作流程。 蛋白–配体复合物首先被转换为机器可读的特征,作为输入用于训练生成模型。模型训练完成后,以目标结合口袋为输入,生成与该结合口袋具有高亲和力的三维配体结构。
药物设计中的一个基本理念是,在极其庞大的化学空间(估计包含超过 10^60 个可能化合物)中高效搜索类药候选分子。药物化学家希望找到既对治疗靶点具有高效力和高选择性,又在体内外均表现出良好类药性质的化合物,从而最终推动临床研究的成功。自 20 世纪 90 年代以来,基于结构的药物设计(SBDD)与蛋白质数据库(PDB)的快速扩展相伴发展,已经促成了大量成功的药物发现案例。目前,SBDD 中一种常用的方法是分子对接:通过对接大规模化合物库(例如 Enamine REAL 数据库和 ZINC 数据库)来筛选潜在活性分子。然而,这些库中的大部分化合物在对接中通常会因空间冲突或与结合口袋相互作用不足而被淘汰。
相比之下,一种更高效的 SBDD 策略,是直接基于结合口袋结构(例如大小、形状、氨基酸排列以及表面相互作用特征等)“生长”类药分子。基于这一思路,并借助深度学习技术,研究者提出了基于结构的生成算法:这类方法从已知蛋白−配体复合物结构中学习配体特征和相互作用模式,并生成可能在这些方面进行模拟的全新化合物。到 2025 年春季,PDBbind 数据库中已经包含至少约 2.7 万个蛋白−配体复合物结构,BindingNet v2 数据集中有约 68.9 万个建模的蛋白−配体复合物,而 CrossDocked2020(文中简称 crossdock)数据集中则包含约 2260 万个对接得到的蛋白−配体复合物,为训练基于结构的生成模型提供了快速增长的数据资源。
当前基于结构的生成模型主要在以下几方面存在差异:三维特征的表示方式、领域知识的引入方式以及分子生成策略(图2)。在相当长一段时间里,如何有效表示蛋白−配体复合物的三维特征是一个挑战;近年来的突破包括离散体素栅格、连续表示(如三维分子图和点云)以及欧氏距离矩阵等。三维分子图和点云已成为结构生成模型中较为先进的表示形式,因为它们既能刻画原子性质和键连信息,又能通过直接编码精确的三维原子坐标引入丰富的几何信息。这些综合特征使其在三维分子建模中比体素栅格或基于距离的表示更具表达力。

图2 | 展示了当前三维结构驱动小分子生成算法的概览。 (A) 配体和蛋白的三维结构可以用多种形式表示,包括体素化网格、笛卡尔坐标以及欧几里得距离矩阵。近期也有方法将三维数据离散化为“token”,以便利用大语言模型完成基于三维结构的生成任务。(B) 除了将蛋白结构作为分子生成的条件输入外,还可以引入药效团、蛋白–配体相互作用等领域知识,对生成过程进行约束和引导。(C) 这些模型还可按生成策略进行区分:一类采用自回归方式,按原子或片段逐步生成配体;另一类则采用“一步到位”的策略(如扩散模型),在单次生成过程中构建完整分子。
此外,一些生成模型还显式引入药理学领域知识,例如药效团或特定的蛋白−配体相互作用,以引导生成过程。此类知识的引入可能有助于生成与靶点亲和力或其他性质更优的分子,但同时也会通过增加生成过程的约束,降低生成结构的多样性。在生成策略上,现有方法大致可以分为两类:自回归式生成(逐原子或逐片段生成)以及“一步到位”式生成。
整体来看,目前几乎所有模型的目标都是在结合口袋结构条件下生成具有较高对接评分的分子。除对接评分外,定量类药性(QED)评分和合成可及性(SA)评分也是常用来评估生成分子质量的指标,但这些指标本身也存在一定局限性。近期,Buttenschoen 等人提出了 PoseBusters 工具,用于评估深度学习模型生成配体构象的物理合理性。作为一个物理层面严格的工具,PoseBusters 促使生成模型在产生物理合理构象方面取得了进步。然而,尽管已有研究表明某些生成模型可能产生在化学上不合理(即不稳定或难以合成)的结构,但针对基于结构的生成算法输出的系统性化学合理性评估仍然相对欠缺。多数研究仅以 SMILES 串或三维结构的“有效性”为化学合理性的判据,并辅以二维性质分布分析,但这些方法不足以全面评估化学合理性。有效评估指标的缺失在一定程度上阻碍了能够生成化学合理、类药分子的模型的持续改进,而这恰恰是实际应用和推动药物发现向前发展的关键。
为评估生成算法在设计化学合理且类药分子方面的能力,该研究团队首先基于 ZINC20 和 ZINC22 数据库中的类药分子调查,提出了两个新的指标。随后,又结合一个基于 ChEMBL 数据库中环系出现频率的额外指标,对七种基于结构的生成算法(3D-Generative-SBDD,简称 3DSBDD;pocket2mol;TargetDiff;DecompDiff;PMDM;Decompopt;MolSnapper)所生成分子的化学合理性进行了系统评估,并将结果与三个对照组进行对比(经批准上市的小分子药物、处于临床阶段的 ChEMBL 小分子,以及被认为富含类药分子的 crossdock 数据集)。总体而言,研究发现这些生成模型产生的分子在类药性方面普遍劣于对照组,主要原因在于化学合理性和类药性均存在不足。进一步的性质分布分析与可视化结果揭示了一些潜在成因——这些差异可能源于训练数据集和模型架构。
为了减少 crossdock 测试集靶点分布带来的潜在偏倚,该研究团队进一步精心选择了三个具有代表性的蛋白靶点——c-Src 激酶(PDB ID: 7WF5)、Smoothened 受体(PDB ID: 5L7I)和多巴胺 D1 受体(PDB ID: 7CKY)——并将生成分子与这三个靶点的虚拟高通量筛选(HTVS)hits 进行了比较。结果表明,虽然这些生成算法能够设计出具有较高预测结合亲和力的分子,但在生成化学合理且具有良好类药性的化合物方面仍然面临明显挑战。基于这些发现,该研究提出的指标和分析流程为今后改进基于结构的生成算法、提升生成分子的化学合理性和类药性提供了有价值的实践指导。
2 结果
2.1 生成的分子都在化学上合理且具有类药性
为公平比较不同的结构驱动分子生成模型,该研究将所有选定的生成模型统一在相同的 CrossDock2020 数据集子集上进行训练和测试。为避免训练偏差,该研究团队使用预训练好的模型,对测试集中的 100 个蛋白质,每个蛋白生成 100 个分子,目标是得到总计 10000 个用于基准测试的分子。
然而,研究发现并非所有算法都实际生成了恰好 10000 个分子(推测与各自的算法设计有关,汇总见表 S2)。部分生成分子存在重复或无效结构:在用 RDKit 工具包将 SMILES 或结构文件(.sdf)转换为分子对象(Mol)时返回 “None” 即视为无效。表 S2 还汇总了各算法的生成效率以及生成时使用的硬件设备,整体上与既有研究报道基本一致。
在获得由不同模型生成的分子结构后,该研究应用了若干评价指标来衡量其化学合理性。第一个指标是从每个生成分子中抽取环系(ring system),并统计这些环系在 ChEMBL 数据库中的出现频率。ChEMBL 是一个经人工整理的、含有具有类药性质活性化合物的数据库。如果某个环系在 ChEMBL 化合物中非常罕见,则其在化学上合理或具备类药性的可能性相对较低。
第二和第三个指标则评估生成分子的 Bemis–Murcko(BM)骨架是否出现在 ZINC20(8.7 亿)和 ZINC22(546 亿)数据库中的“类药分子”集合里。如果某一分子的 BM 骨架在这些数据库中从未出现,则可能暗示该分子存在不稳定性或缺乏类药性质。需要注意的是:ZINC 数据库中所谓的“类药分子”是基于分子性质预测得到的,并不保证真正具备类药性;此外,其中部分化合物尚未被实际合成,只是被预测为可合成。同样地,即便某个 BM 骨架在 ZINC 中缺失,它仍可能在化学上合理;对 ChEMBL 的环系也是如此。
该研究结果清楚表明,这三个指标在三类对照数据集之间表现出高度一致性(图 3),而在生成分子中则表现出明显不一致。三组对照数据(标记为 FDA、ChEMBL 和 crossdock)在所有指标上表现稳定且较好,表明这些化合物更可能共享相似的性质或类药性。超过 69% 的对照组分子通过了 ChEMBL 环系指标,而算法生成分子中通过比例通常低于 50%(图 3A)。在基于 ZINC 的两个 BM 骨架指标上,控制组与生成组之间同样存在一致差异:对照组在 ZINC20 和 ZINC22 两个指标上的通过率大约都高出生成组 10 个百分点左右(图 3B、3C),pocket2mol 是少数例外之一。
此外,FDA 批准小分子药物的通过率往往最高,其次是 ChEMBL 临床化合物集和 crossdock 集,这说明这些指标能够区分“类药性”最强的数据集。这种 FDA 药物与另外两组对照集之间的差别也提示:BM 骨架的出现与否可能是一个相对更严格的类药性指标。与对照分子相比,基于这些指标的结果表明,生成算法给出的分子在整体上更可能在化学合理性或类药性方面存在不足。后续章节中,该研究对生成结果中化学上不合理的结构做了进一步分析,并给出了具体例子和补充讨论以支撑这一结论。
值得注意的是,PAINS(pan-assay interference compounds)过滤器在剔除化学上不合理分子方面并不有效:如图 3D 和图 S4 所示,各数据集中超过 92% 的分子都通过了 PAINS 过滤。PAINS 过滤器以及该研究测试的其他常用过滤器(图 S4),设计初衷是识别那些在高通量筛选实验中容易产生假阳性的可疑子结构。这类过滤器依赖预定义的子结构库,无法判断新生成分子在化学稳定性或可行性方面是否合理。部分生成模型本身也可能已在内部考虑过 PAINS。总体来看,PAINS 以及其他此类过滤器在生成设计过程中,仅对去除化学上不合理分子的作用有限。

图3 | 展示了使用三项指标和 PAINS 过滤器评估的化合物比例。 (A) “min_freq > 100” 指标通过从每个分子中提取环系,并统计这些环系在 ChEMBL 数据库中出现的频率来计算。如果某个分子中最不常见的环系(单个分子可能包含多个环系)在 ChEMBL 中出现次数少于 100 次,则该分子被视为可能在化学上不稳定或缺乏类药性。该比例通过“满足该条件的分子数量”除以“包含环系的唯一分子总数”得到。(B, C) “BM scaffolds” 指标通过从 ZINC20 和 ZINC22 数据库中提取类药分子Bemis–Murcko 骨架来计算。如果生成分子的 BM 骨架未在这些数据库中出现,则可能意味着其结构合成难度较大或在化学上不够合理。该比例通过“在 ZINC 中出现的 BM 骨架数量”除以“生成分子中 BM 骨架的总数”得到。(D) 通过 PAINS 过滤器的分子所占比例。
2.2 是什么导致生成分子中出现化学不合理和低类药性?
逐个肉眼检查所有生成分子显然不现实。为更好地理解结构基础生成模型为什么会设计出不合理的化合物,该研究首先绘制了若干结构性质和分子描述符的分布,并与对照数据集进行比较。总体来看,对照组在这些性质上的分布较为一致,这一点在雷达图(图 4)中有明显体现。相反,由各类算法生成的分子在这些性质上的分布与对照组存在显著差异,尤其是在手性原子数、脂肪族环数量和芳香环数量方面(图 4)。更详细的分布(如小提琴图)进一步突出了对照组内部的一致性以及对照组与生成分子之间的差异(图 S2)。为更深入理解这些差异,该研究检视了一些化学上不合理的设计,并从药物化学角度分析其可能原因。

图4 | 展示了用于比较各数据集中化学性质分布的雷达图。 所考察的参数定义如下:MW:分子量;AliR_C:脂肪族环计数;AroR_C:芳香环计数;ChiA_C:手性原子计数;SA:合成可及性;NHOH_C:NH/OH 基团计数;HetA_C:杂原子计数;RotB_C:可旋转键计数;BriA_C:桥头原子计数。各参数的百分比通过“平均值 ÷ 参考值”计算得到,其中参考值分别为:MW = 500,AliR_C = 4,AroR_C = 3,ChiA_C = 6,SA = 6,NHOH_C = 6,HetA_C = 10,RotB_C = 8,BriA_C = 2。
首先,即便是在分子量较低的设计中,生成结果仍然普遍存在化学不稳定结构或亚结构的问题。例如,3DSBDD 和 pocket2mol 生成的分子整体比其他方法更小。这两类方法生成分子的平均分子量都低于 255 Da,而其他算法生成分子的平均分子量多在 280 Da 以上(图 5A)。虽然较小分子在部分类药性指标(如可合成性)方面可能具备一定优势,但受限于原子数和可行键连组合,这类设计往往需要更精细的结构约束。然而,该研究仍然在生成数据集中发现了若干明显不合理的分子,例如在五元环中出现 sp 杂化碳原子(图 5B)。在各个生成数据集中均可找到化学不稳定结构,这表明当前算法或模型仍然缺乏一些最基本的化学规则。

图5 | 展示了化学性质分布显示生成分子与对照数据集之间的差异。 对应的化学上不合理结构选自未通过 ChEMBL 环系评价指标的分子,并利用 RDKit 将与这些分布相关的子结构以红色标出。(A) 各数据集中分子量的分布。(B) 由 3DSBDD 或 pocket2mol 生成的、具有较低分子量的分子示例。(C) 各数据集中脂肪族环数量和芳香环数量的分布。(D) 具有多个脂肪族环且只有一个或没有芳香环的化学上不合理分子示例。
第二,生成分子通常芳香环偏少,而脂肪族环偏多。对每种算法而言,其生成分子中平均每个分子的芳香环数大约在 0.5–1.75 之间,大多数算法甚至不足 1 个芳香环。相比之下,对照组分子的平均芳香环数量通常高于 1.5 个,其中 ChEMBL 和 crossdock 分子接近 2 个芳香环(图 5C 和图 S6)。此外,除 pocket2mol 外,其他算法生成的分子中脂肪族环的平均数均较高,在 1.35–2.5 之间,而对照组的平均脂肪族环数量通常低于 1.3 个(图 5C)。这表明这些生成算法在环体系上可能偏向于脂肪族环而非芳香环。图 5D 展示了一些示例,用以说明这种偏向在实际分子设计中的体现。此类偏向虽然可以让分子骨架更加非平面化,从而在结合口袋中获得更多接触,但也可能导致合成难度增加,甚至产生在化学上不合理的结构。
第三,生成分子通常含有更多手性中心。就每种算法而言,其生成分子中平均每个分子包含约 2.7–3.6 个手性原子,大多数算法的平均手性原子数超过 3 个。相比之下,crossdock 和 ChEMBL 分子的平均手性中心数约为 1.6,而 FDA 批准小分子药物约为 2.5。当前算法倾向于生成结构更复杂的分子,而这类分子往往更难合成(图 6A 和图 S6)。事实上,该研究观察到生成分子的合成可及性(SA)评分更高(数值越高表示越难合成),其平均 SA 分数超过 4.1(图 6B)。图 6C 展示了一些具有多个手性中心且嵌在复杂环体系中的典型设计。与此相对,三类对照组的 SA 分数较低:FDA 批准小分子药物约为 3.6,ChEMBL 临床候选小分子约为 3.3,crossdock 数据集中的配体约为 3.3。此外,该研究还发现,各算法生成分子的性质分布与其训练集 crossdock 的分布存在明显差异(图 4),这表明当前模型仍需更多机制来有效学习训练分子中所蕴含的化学先验信息。

图6 | 展示了与结构复杂性相关的分布显示生成分子与对照数据集之间的差异。 对应的化学上不合理结构选自未通过 ChEMBL 环系评价指标的分子,并利用 RDKit 将与这些分布相关的子结构以红色标出。(A) 各数据集中手性原子数量和合成可及性(SA)评分的分布。(B) 具有多个手性原子的分子示例。
最后,与对照组相比,生成分子中 NH 和 OH 基团更多(图 7A 和图 S6)。各算法生成分子中,平均每个分子含有约 2.8–5.5 个 NH/OH 基团,而对照组的平均值均低于 2.8。图 7B 展示了若干由算法生成、且含有多个 NH 和 OH 基团的代表性分子。尽管 NH/OH 基团在许多类药分子中常见,但其数量过多可能对化合物的渗透性及其他药代动力学(PK)性质产生负面影响。根据 Lipinski“五规则”,当一个分子中氢键供体(即 OH 和 NH 基团)超过 5 个时,其口服生物利用度可能较差,因为这些基团会显著提高分子的极性并降低膜通透性。过多的 NH 和 OH 基团不仅会阻碍药物穿越细胞膜并到达靶点,还可能在分子上引入更多代谢易感位点。大量 OH/NH 基团的存在也可能反映出这些算法的确学习到了分子与蛋白之间的有利相互作用模式,因为 OH/NH 基团在氢键和静电相互作用中贡献巨大。然而,从该研究的结果来看,生成分子在整体类药性和化学合理性方面并未得到充分体现。

图7 | 展示了特定官能团的分布及示例分子。 (A) 各数据集中 NH 和 OH 基团数量的分布表明,这些算法更倾向于生成含有 NH 和 OH 基团的分子;与这些分布相关的子结构由 RDKit 以红色标出。(B) 含有多个 OH/NH 基团的分子示例。(C) 四个虽满足该研究所采用的全部三项评价指标,但仍然不具备良好药物性质或难以合成的分子示例。
2.3 生成式设计与高通量虚拟筛选相比如何?
由于高通量虚拟筛选(HTVS)及其底层技术——分子对接——已被广泛应用,该研究在相同蛋白质靶标上对 HTVS 与生成式设计两种方法进行了比较。需要注意的是,大多数被测试的生成算法都是在 crossdock 数据集上预训练的;然而,该数据集中的蛋白质靶标分布,并不能很好代表 FDA 批准小分子药物或 ChEMBL 临床候选化合物的治疗靶标分布。例如,在 CrossDock 训练集中,G 蛋白偶联受体(GPCR)仅占 3.5%,离子通道仅占 4.8%(表 S3)。训练集中蛋白靶标类型的差异,引发了几个关键问题:生成分子与真实药物或类药分子之间究竟存在怎样的本质差别?在新靶标上,这些生成算法与 HTVS/对接方法相比准确性如何?
虽然更彻底的比较需要实验验证,该研究在此工作中主要通过对接评分和三个评估指标,将生成分子与 HTVS 得到的高分子进行比较。为了保证比较公平,研究选取了三个药物靶标:C-Src 激酶(PDB ID: 7WF5)、Smoothened 受体(PDB ID: 5L7I)以及多巴胺 D1 受体(PDB ID: 7CKY)。选择这些靶标的原因包括:它们不出现在各生成算法使用的训练或测试数据集中,其配体结合位点较深且界限清晰,并且结合口袋内不存在保守水分子。
在生成设计方面,该研究仅测试了 3DSBDD、pocket2mol 和 MolSnapper,为每个蛋白靶标各生成 500 个候选配体;这是因为 DecompDiff 和 DecompOpt 目前尚不支持用户自定义蛋白输入,而 PMDM 和 TargetDiff 未能生成足够数量的设计。尤其是,对 MolSnapper 分别在两种设置下进行评估:一种在生成过程中使用来源于晶体配体的药效团信息(记为 “p”),另一种则不使用药效团信息(记为 “np”),以便进行更全面的比较。
与此并行,该研究使用 Enamine HTS 文库的 1/10(约 174000 个分子)进行了 HTVS。对这部分分子进行分子对接后,其在三种蛋白结构(7WF5、5L7I、7CKY)上的平均对接评分分别为 −8.3、−8.9 和 −8.0。随后,从 HTVS 结果中选取 Autodock Vina 对接评分最低(即亲和力最高)的前 500 个分子,作为 HTVS hits。对于这 500 个 hits,其在 7WF5、5L7I 和 7CKY 上的平均对接评分分别为 −12.2、−12.4 和 −10.9,明显优于各生成算法得到的分子(图 8A)。总体来看,各生成算法产生的分子,其对接评分虽普遍优于 HTS 文库整体分子平均水平(更负),但仍不如 HTVS 中筛选出的前 500 个 hits(图 8A)。
在结构合理性与类药性方面,超过 75% 的 HTVS hits 通过了 “min_freq > 100” 指标,而生成设计的分子中通过该指标的比例则不足 65%;但不论是 HTVS 还是生成分子,通过 BM 骨架指标的比例都少于 55%(图 8B–D)。由于基于 BM 骨架的指标通常比 “min_freq > 100” 更为严格,这些结果表明:相对于训练数据集(crossdock),针对这三个靶标生成的分子整体上更不类药;与 Enamine HTS 文库中经 HTVS 挑选得到的 hits 相比,其化学合理性和类药性也普遍较低。上述发现强调了在评估生成模型时引入化学合理性指标的重要性,以确保高对接评分真正对应于在化学上可行且类药的分子,而不仅仅是计算得分优异的“虚假好分子”。
该研究还从准确性与效率平衡的角度,对 HTVS 与生成式设计进行了比较,采用富集因子(enrichment factor,EF)和生成单个分子所需时间作为评估指标。EF 被定义为:在特定对接评分阈值下,生成设计的“命中率”与 HTVS 命中率之比。这里将对接评分低于某一阈值(例如 −8 kcal/mol 至 −12 kcal/mol)视为“命中”,并据此计算 EF;当 EF 大于 1 时,可认为生成式设计在该阈值下具有一定有效性(图 8E 和表 S4)。
结果显示,随着对接评分阈值逐渐降低(即要求更高亲和力,阈值更负),EF 呈总体升高趋势。MolSnapper 在是否使用药效团信息的两种条件下,均能稳定获得 EF > 1;而 3DSBDD 和 pocket2mol 在至少一个靶标上未能生成足够多高评分分子,表现为对应靶标的 EF 接近 0(图 8E 和表 S4)。考虑到 Vina-GPU 2.1 对单个分子的平均对接时间约为 3.37 秒,而各生成算法平均生成一个分子的时间均少于 30 秒(表 S2),该研究认为:当 EF > 10 时,结合一个足够稳健的生成算法(如 MolSnapper),生成式设计有望成为发现命中分子的高效途径。
然而,在该研究测试的这三个蛋白靶标中,仅在对接评分阈值相对宽松(例如 < −10 kcal/mol)时,才观察到较高的 EF,且 EF 的大小对靶标高度敏感。这进一步表明,当前生成式设计在某些情形下可以在效率上补充甚至部分替代 HTVS,但仍需要在化学合理性、类药性和靶标泛化能力方面进行大量改进。

图8 | 展示了不同算法生成分子与针对 C-Src 激酶(PDB ID: 7WF5)、Smoothened 受体(PDB ID: 5L7I)和多巴胺 D1 受体(PDB ID: 7CKY)的高通量虚拟筛选(HTVS)命中分子的比较。 对于 MolSnapper,“p” 表示在生成过程中引入来自晶体配体的药效团信息,“np” 表示未使用药效团信息。行对应不同蛋白靶标:第一行为 7WF5,第二行为 5L7I,第三行为 7CKY。(A) 生成分子、Enamine HTS 文库的十分之一子集以及 HTVS 命中分子的 Vina 评分分布。(B–D) 满足三项质量控制指标的化合物比例:环频率 >100;Bemis–Murcko(BM)骨架存在于 ZINC20 中;BM 骨架存在于 ZINC22 中。对于该分析,使用按 Vina 评分排序后排名前 500 的 HTS 分子来计算通过率。(E) 生成分子相对于 Enamine HTS 文库十分之一子集的 Vina 评分富集因子(从左到右分别对应 7WF5、5L7I 和 7CKY)。
3 总结
总而言之,该研究识别出了 AI 生成分子中存在的化学不合理性,并指出了当前生成算法在未来改进中需要关注的多项不足。研究团队基于 ZINC20 和 ZINC22 中 BM 骨架出现频次,构建了两个有效指标,用于评估生成分子的化学合理性。结合 ChEMBL 中的环系出现频次指标,这些度量共同表明:与三组对照数据相比,部分生成分子既不具备足够的化学合理性,也不符合类药特征。进一步的结构与性质分析,辅以人工可视化检查,揭示了生成分子中若干潜在缺陷,这些缺陷很可能导致其化学不合理性增强以及相较对照分子更低的类药性。与此一致的是,针对 c-Src 激酶、Smoothened 受体和多巴胺 D1 受体的个案分析表明:尽管生成算法能够产出具有较优对接评分的分子,但其整体化学合理性和类药性仍普遍低于来自 Enamine HTS 文库的 HTVS 命中分子。上述结果共同强调了:在评估生成模型时,有必要显式引入化学合理性相关指标,以确保高对接评分真正对应于在实践中化学可行、具有类药特性的分子,而不仅仅是计算意义上的“高分子”。
除可通过二维分子图评估的化学合理性与类药性之外,生成分子的三维结合构象质量同样至关重要。已有多项研究报告,当前生成模型往往给出三维构象不合理的分子,其特征包括高应变能和明显的空间冲突。该研究利用 PoseBuster、PoseCheck 和 Torsion library 对各算法在 crossdock 测试集上生成分子的三维结合构象进行了评估,所得结果与既往研究一致(表 S5)。与 crossdock 测试集中通过对接得到的配体相比,多数生成构象在这些指标上表现明显更差(表 S5)。尽管能量最小化、重新对接等后处理策略可以在一定程度上缓解上述问题,但即便这并非该工作的重点,三维构象生成质量不足,依然是三维结构驱动生成模型面临的关键挑战之一。
从二维与三维两个层面来看,该研究的结果均表明:当前三维结构驱动的生成模型在捕捉训练集中蕴含的化学先验信息方面表现不佳,这体现在:生成分子中频繁出现化学不合理结构、所提出指标的通过率偏低、以及基于 SynFormer 预测的逆合成成功率相较对照组明显偏低(表 S6)。常用指标如 QED 与 SA 并不能充分反映这种化学合理性的缺失(表 S6)。为缓解这一问题,可以考虑若干策略:其一,是在生成结果之后通过化合物过滤器、人工可视化检查或精心设计的筛选流程,去除化学不合理或明显非类药分子;其二,是在开展结构驱动生成任务之前,先在真实已合成或更具现实性的分子数据集上对模型进行预训练,以注入更强的化学先验。此类预训练在化学语言模型中已较为普遍,但在基于图的模型中仍相对缺乏系统探索。另一条路径,是利用以化学合理性为目标的强化学习(例如采用该研究提出的度量作为奖励信号),在生成过程中引导模型向更合理、类药性更佳的结构空间迁移。此外,基于片段的生成方法或引入合成可行性约束的模型,可以利用片段、合成砌块或反应库中所蕴含的化学先验,提升生成分子的化学合理性,但这类方法探索的化学空间不可避免地受限于预定义资源的覆盖范围。最后,若干最新研究提出了 AI 驱动的后处理模型,可以对存在问题的结构进行“修复”,或生成在结构上相近但化学上合理的替代分子,这也为缓解上述问题提供了一个有前景的技术路线。
另一个可能导致模型在二维与三维表现均不理想的重要因素,是 crossdock 数据集本身的质量。顾名思义,crossdock 是通过将已知蛋白−配体复合物中的配体,对接到具有相似结合口袋的蛋白上构建得到的。因此,用于训练和测试的蛋白−配体复合物,并不一定代表真正的最优结合配对。正如图 S8B 所示,测试集中配体的范德华体积与蛋白口袋体积之间相关性较弱,这在一定程度上反映了交叉对接带来的相互作用次优问题。同时,crossdock 并不能充分代表治疗靶标的多样性。例如,G 蛋白偶联受体和离子通道在训练集与测试集中都严重不足(表 S3),这与它们在获批药物靶标中所占的实际比例形成鲜明对比。这种偏差很可能影响模型在更广泛、真实世界药物发现场景中的表现。鉴于 crossdock 目前仍是三维结构驱动生成模型最常用的训练数据集之一,引入更新、更全面的数据资源(例如 BindingNetV2 或大规模对接数据库 LSD)有望通过提供更加稳健、贴近真实的蛋白−配体复合物,提升模型的性能与泛化能力。