PNAS 2025 | CORDIAL: 一种可泛化的基于结构的蛋白–配体亲和力排序深度学习框架

今天介绍的是发表在PNAS上的一项研究,旨在实现可泛化蛋白–配体亲和力预测的深度学习框架。在药物发现中,如何同时兼顾计算效率与预测精度一直是难题:基于物理的高精度方法计算成本过高,而传统打分函数虽高效却缺乏可靠性。机器学习被视为潜在的解决途径,但其泛化能力不足,常在面对新蛋白或新化学骨架时失效。CORDIAL通过一种创新的“仅相互作用”建模策略,避免直接参数化化学结构,而是利用蛋白与配体间的距离依赖物理化学特征分布进行学习,并通过卷积与注意力机制捕捉局部与全局的相互作用模式。研究采用严格的“留超家族外”(CATH-LSO)验证框架模拟真实前瞻性筛选场景,结果显示CORDIAL在分布外测试中仍保持优异的预测准确性与校准性,明显优于传统3D-CNN与GNN模型,为构建可泛化的结构驱动药物设计模型提供了新的方向。

获取详情及资源:

0 摘要

在药物早期发现阶段,快速且精确地评估蛋白质–配体结合亲和力至关重要。然而,这一过程长期受到限制:基于物理的高精度金标准方法计算代价高昂,而经验打分函数虽速度快,却牺牲了精度。机器学习(Machine Learning, ML)被寄予厚望,希望能在精度与速度之间架起桥梁,但由于模型泛化能力有限,其潜力尚未完全实现。现有ML模型在预测训练集中未出现的新蛋白或化学系列的结合亲和力时往往表现不佳。研究者推测,这种失败源于模型训练过程中的“竞争”现象——模型倾向于学习训练数据中高频结构模体的虚假相关性,而非真正可迁移的分子相互作用物理化学原理。

为此,研究引入了CORDIAL(COnvolutional Representation of Distance-dependent Interactions with Attention Learning)这一深度学习框架。该模型具有基于距离的物理化学相互作用学习偏向,通过卷积与注意力机制捕捉蛋白质与配体之间的相互作用特征,避免直接参数化其化学结构,从而实现“仅基于相互作用”的建模策略。

通过模拟遇到全新蛋白家族的“跨超家族验证”(leave-superfamily-out validation),CORDIAL在预测性能与校准度方面均保持稳定,与在相同测试下性能显著下降的传统模型形成鲜明对比。结果表明,在ML架构中融入任务相关的物理化学归纳偏向具有重要价值,并为构建可泛化的结构基础药物发现模型提供了一条经过验证的途径。

1 引言

治疗性药物的发现是一项跨学科过程,旨在识别并优化能够调控生物靶标、用于疾病治疗的化合物。小分子药物构成了FDA批准药物的主要部分。近年来,随着DNA编码化合物库与超大规模按需合成化学库的发展,可探索的化学空间显著扩大,这些进展提升了药物发现阶段可用于命中筛选的化学物质多样性与质量,也对更快速、可靠的计算筛选方法提出了更高要求。在早期阶段识别出高质量命中物,即那些具备高效力、高选择性、理化性质良好、代谢稳定、低毒性以及理想ADME特征的化合物,对于降低后续先导优化成本与加速新药临床开发至关重要。

计算机辅助药物设计(CADD)已成为实现这一目标的重要工具,但在大规模上精确预测蛋白–小分子相互作用强度的能力仍受限。基于统计物理的精确方法如变形自由能微扰(alchemical FEP)虽然准确,但计算代价高昂,不适用于广阔化学空间的探索;相反,分子对接打分虽高效,却缺乏精度与稳定性。机器学习(ML)被视为弥合速度与精度差距的有力手段,然而尽管经历了十余年的发展,现有ML亲和力预测模型在泛化性方面表现不佳,无法稳定适用于训练分布之外的新蛋白与新化学系列。这一失败主要源于模型在训练中学习到了局限数据集中常见结构片段的伪相关,而非可迁移的分子间物理化学规律,加之现有验证策略无法有效评估模型在分布外任务中的表现,使问题更加严重。常见的随机k折交叉验证因训练与测试样本分布一致而高估性能,时间划分、单蛋白留出或基于序列的划分方法也各有缺陷,往往导致家族内信息泄漏或结构折叠相似带来的数据污染。这些问题使得已发表模型的实际有效性受到质疑。

为解决建模与验证的双重挑战,研究提出了两项主要改进。首先,建立了严格的蛋白–配体亲和力预测验证基准,即基于CATH的“留超家族外”(Leave-Superfamily-Out, LSO)策略,通过完全排除整个蛋白同源超家族及其相关化学骨架来模拟前瞻性筛选,从而评估模型在新蛋白结构与化学体系上的泛化能力。其次,提出一种摆脱结构中心化偏差的特征提取方案,完全基于蛋白–配体相互作用空间。该方法通过计算蛋白与配体原子间多种化学性质的距离相关交叉分布,生成相互作用径向分布函数(RDFs),并以此构建嵌入表示,迫使模型学习可迁移的物理化学规律,而非依赖特定化学亚结构。为处理这些结构化RDF输入,作者设计了专用神经网络架构——CORDIAL(COnvolutional Representation of Distance-dependent Interactions with Attention Learning),利用一维卷积捕捉局部距离依赖的相互作用模式,并通过轴向注意力机制整合全局的距离与性质关系。

研究进一步构建了结合结构信息与生化活性数据的增强数据集,在该框架下系统评估不同模型。与基于分子结构体素或图表示的主流方法相比,这一“仅相互作用”策略具有本质差异。体素化的三维卷积网络(3D-CNN)继承自早期对接程序的网格打分思想,如DOCK中的预计算范德华与静电能量场;其后如KDEEP、AtomNet等模型以可学习的卷积核替代经验能项。而图神经网络(GNN)近年来在学习分子力场等任务中取得显著进展,也被引入结构基础的亲和力预测。然而,这些架构的诱导偏置倾向于捕获特定化学拓扑或显式三维结构的模式,导致模型容易依赖频繁出现的化学亚结构,而非学习普适的结合规律,因此在新靶点上表现急剧下降。已有分析亦表明,部分模型的预测能力主要来自配体特征,而非蛋白结构。

基于上述假设,研究在统一验证框架下比较了结构中心化与仅相互作用两类模型在分布内(随机划分)与分布外(CATH-LSO)任务上的表现。结果显示,所有模型在分布内测试中表现良好,但3D-CNN与GNN在分布外任务上的性能显著下降;相反,CORDIAL模型在泛化场景下依旧保持预测准确性与校准性,证明其基于物理化学直觉的诱导偏置能够有效学习可迁移的结合规律。这项工作展示了一种构建可泛化机器学习模型的新路径,为分子结构驱动的药物设计提供了可靠方向。

图1 | 基于距离依赖的相互作用图学习过程。 (A) 初始的蛋白–配体复合物。(B) 将蛋白与配体结构表示为原子集合。(C) 计算蛋白与配体原子在离散距离区间内的化学性质交叉相关。(D) 将这些化学性质交叉相关的径向分布函数累积形成距离–特征矩阵。(E) 对每一特征列独立应用一维卷积,以学习距离变化下的特征平滑规律。(F) 进一步应用轴向注意力机制,以捕捉距离依赖性并实现特征间的信息融合。(G) 示意输入的距离–特征矩阵。(H) 经卷积模块处理后的距离–特征矩阵示例。(I) 经注意力模块处理后的距离–特征矩阵示例。

2 结果

研究的目标在于构建一种无偏的、基于结构的模型,用于预测蛋白–配体结合亲和力,并可应用于虚拟高通量筛选。由于可成药化学空间的规模极为庞大(约为 10181024),直接以分子结构进行参数化的模型容易在有限训练数据中产生偏倚。当缺乏足够的数据时,通用模型架构往往缺少针对任务的归纳偏置,因此难以克服这种偏倚。研究假设,若模型仅基于分子间原子对定义的相互作用空间进行训练,而非直接以化学结构作为参数化对象,则其泛化能力将更强。

为此,研究者提出了一种基于距离依赖相互作用图的嵌入与建模方法,即CORDIAL(见图1)。该模型通过学习分子间原子对的距离相关关系来表征蛋白–配体相互作用。CORDIAL的训练目标是对结合强度进行分类预测,采用8个有序的亲和力阈值等级(从pKd1pKd8)。标签具有累积性,例如满足pKd4的样本同时也符合pKd1、2和3的条件。所有对照模型均在相同的有序分类框架下训练,以确保结果具有可比性。关于特征化方法、模型结构与训练细节,可参见材料与方法部分。

2.1 在新蛋白家族上评估有序亲和力排序性能

研究对CORDIAL与多种常见深度学习架构进行了系统比较,以检验其在不同验证条件下的泛化能力。具体而言,训练了三类模型:基于体素网格的传统三维卷积神经网络(3D-CNN)、采用径向原子环境向量作为节点特征的图注意力网络(GAT),以及基于相互作用空间表示的CORDIAL。同时,以分子对接程序GNINA中的VinaScore作为非机器学习基线进行对照。所有模型均采用相同的八级有序亲和力阈值分类体系进行训练,并分别在随机5%划分与更严格的CATH-LSO验证协议下进行评估。

为了量化模型在不同亲和力等级间的区分能力,研究计算了每个阈值对应的“一对其余”(OvR)接收者操作特征曲线下面积(ROC AUC)。这一指标衡量模型区分满足特定亲和力阈值(如pKd5)与未满足样本的能力。结果显示,模型在不同验证条件下表现分化显著。在常规的随机划分验证中,GAT表现最佳(ROC AUC约0.95–1.0),其次为CORDIAL与3D-CNN,三者均显著优于VinaScore。然而,在更严格的CATH-LSO验证中,依赖直接结构参数化的深度学习模型性能普遍下降,尤其在低亲和力阈值(pKd1至4)及最高阈值(pKd8)下最为明显。GAT在多数阈值上的中位ROC AUC下降超过0.3,3D-CNN亦呈相似趋势,表明二者均受到训练数据中结构亚群伪相关的干扰,难以学习可迁移的分子相互作用规律,从而限制了对新蛋白超家族的泛化能力。

相对而言,非机器学习的VinaScore在随机划分与LSO验证中表现稳定,其性能变化较小,这与其参数数量有限及函数形式固定有关。而CORDIAL在CATH-LSO条件下仍能保持与随机划分近似的预测能力,仅出现轻微的中位ROC AUC下降。需要注意的是,在CATH-LSO验证中,CORDIAL与VinaScore均表现出较高的预测方差,这是由于每个测试集在化学与物理特性上更加同质化,模型需应对独特的理化挑战所致。值得强调的是,CORDIAL在所有亲和力阈值上均优于VinaScore,展现出更强的判别能力。整体而言,CORDIAL在分布外条件下的稳健表现验证了其设计假设——专注于相互作用空间学习有助于构建具备更强泛化能力的模型;同时,其优于物理打分基线的结果进一步表明,可泛化的机器学习方法在分子识别与亲和力预测中具有潜在实用价值。

此外,通过观察标准化混淆矩阵可获得更细粒度的预测准确性信息。图中自左下至右上的对角线代表各亲和力阈值的阳性预测值(PPV),颜色越深表示预测越准确。随机划分验证结果显示,所有深度学习模型在训练分布内均能有效完成有序分类任务,并呈现明显的对角线主导结构,其中GAT在该条件下表现最优。这说明GAT、3D-CNN与CORDIAL均能从训练数据中成功学习亲和力分级规律。

图2 | 亲和力阈值区分结果。 研究基于多种结构导向的深度学习架构训练了用于蛋白–配体复合物亲和力排序的多分类有序模型:(A) 三维卷积神经网络(3D-CNN,粉/红色);(B) 图注意力网络(GAT,金/绿色);(C) CORDIAL(蓝/绿色),其输入为距离依赖的相互作用径向分布函数矩阵,经分组卷积与轴向注意力处理后,最终通过多层感知机(MLP)预测亲和力等级。(D) 作为额外对照,图中还展示了GNINA实现的VinaScore(紫色)性能,其在所有基准测试中均未做任何修改。模型在不同亲和力阈值间的区分能力通过两种验证划分方式进行评估。主要指标为在10个CATH-LSO(即同源超家族)测试集上的“一对其余”(OvR) ROC AUC值(彩色箱线图),用于衡量模型在分布外条件下的泛化表现;同时,为对比评估模型的训练分布内性能,还测量了每个CATH训练集5%随机保留复合物的验证集结果(灰色箱线图)。在两种评估中,每个独立测试集均通过自助抽样(bootstrap)平衡各标签样本数量,使所有亲和力等级的样本数与最大类别相同,从而保证结果的可比性。

图3 | 展示了亲和力阈值分类结果。 比较对象包括GNINA(紫色)、CORDIAL(蓝/绿色)、GAT(金/绿色)与3D-CNN(粉/红色),评估其在整体随机划分验证集与各独立CATH-LSO测试集上的表现。横轴表示预测的亲和力阈值,纵轴表示真实阈值。颜色条从0.0(白色)到0.5(蓝色)变化,每一列(即每个预测值)均经归一化,使其总和为1。图中自左下至右上的对角线对应阳性预测值(PPV),理想情况下应在对角线位置取值为1,其他位置为0。该图用于展示不同模型在分布外(CATH-LSO)条件下与分布内(随机划分)表现的对比,以反映其泛化能力。在所有评估中,每个独立验证或测试集均通过内部自助抽样(bootstrap)平衡各标签样本数量,使每个亲和力等级的样本数与最大类别一致,从而确保结果的可比性与稳定性。

然而,在分布外(OOD)CATH-LSO划分中,模型表现出现明显分化。GAT与3D-CNN模型的混淆矩阵中均出现更多的非对角预测,表明在面对新蛋白家族时误分类率上升。GAT在不同超家族上的表现差异较大,在部分超家族中仍保留较强的对角预测能力,但在其他超家族(如3.30.565.10与1.20.920.10)中则出现大量偏离对角的预测;而3D-CNN在多数划分中呈现更一致但较为弥散的误分类模式。相比之下,CORDIAL在CATH-LSO划分中的混淆矩阵仍保持显著的对角占优特征,其模式更接近VinaScore基线,但整体准确性更高(见图3)。

为量化混淆矩阵中的视觉趋势,研究采用多种有序分类指标比较模型在分布内(随机划分)与分布外(CATH-LSO)任务上的表现(见图4)。具体包括:用于衡量有序一致性的加权二次卡帕系数(Quadratic Weighted Kappa, QWK),用于评估预测误差的平均绝对误差(MAE),以及在相邻一个亲和力等级内的分类准确率。结果显示,在分布内的随机划分验证中,所有深度学习模型均表现优异,具有较高的QWK、准确率和较低的MAE,说明它们均已成功学习到亲和力排序任务,性能明显优于VinaScore。然而,在分布外的CATH-LSO验证中,结构中心化模型的性能显著下降。GAT与3D-CNN的中位QWK降至0.2–0.3区间,表现与VinaScore相当,反映出它们在新靶点上的有序排序能力受限。相比之下,CORDIAL在CATH-LSO下保持约0.65的中位QWK和约1.5个亲和力等级的MAE,显著优于所有其他模型。其在“相邻一个等级内的准确率”上同样表现最佳,中位值约为0.6。

图4 | 展示了综合排序指标的比较结果。 评估对象包括GNINA(紫色)、CORDIAL(蓝/绿色)、GAT(金/绿色)与3D-CNN(粉/红色),从四个方面进行对比:总体准确率、相邻±1亲和力等级内的准确率、加权二次卡帕系数(QWK)以及基于亲和力等级分类的平均绝对误差(MAE)。每个模型均在两种条件下进行评估:5%随机划分验证集(以半透明虚线边框箱线图表示),以及测试阶段的CATH-LSO划分(以实线边框箱线图表示),以此衡量模型的泛化能力。无论是在随机划分还是CATH-LSO验证中,每个独立验证或测试集均通过内部自助抽样(bootstrap)方法平衡标签数量,使各亲和力等级的样本数与最大类别一致,从而确保评估结果的公平性与可比性。

为进一步进行更细粒度、按蛋白的性能评估,研究选取了10个多样且具代表性的蛋白靶点(分别来自每个CATH-LSO测试集)进行单蛋白分析(见图5)。这些混淆矩阵与总体分析类似,但基于单个蛋白的同系配体系列进行展示,且未进行类别平衡处理。每个靶点下方的一维直方图表示真实标签分布,揭示了真实数据集中固有的类别不平衡问题。需要注意的是,这些单蛋白评估使用的模型仍基于相同的CATH-LSO训练集进行训练,确保对应的同源蛋白被排除(与图3一致)。结果表明,这些单靶点的表现总体与总体趋势一致:GAT与3D-CNN在多个蛋白上预测较为分散,误分类率较高;而CORDIAL的预测在对角线上更集中,表明其有序排序更稳健。

分析还揭示了所有方法在部分蛋白上的局限性。一个典型案例是碳酸酐酶2(4YXI, 3.10.200.10),所有模型——包括CORDIAL与VinaScore——在该靶点上均表现不佳,混淆矩阵高度弥散。这说明该超家族可能具有特殊的结构或理化特征,使其对单点结合亲和力模型而言尤为困难。总体而言,这些结果与总体排序分析一致,进一步支持了研究假设:结构中心化模型在分布外任务中易受训练中学得的亚结构偏差影响,从而难以稳健泛化。而CORDIAL由于显式限制学习范围于相互作用空间,能够有效缓解这一问题,表现出更高的泛化鲁棒性。

图5 | 展示了CATH-LSO划分中部分代表性蛋白的亲和力阈值分类结果。 比较对象包括GNINA(紫色)、CORDIAL(蓝/绿色)、GAT(金/绿色)与3D-CNN(粉/红色),评估其在整体随机划分与单个CATH-LSO测试中的表现。横轴表示预测的亲和力阈值,纵轴表示真实阈值。颜色条范围从0.0(白色)到0.5(蓝色),每个预测列均经归一化,总和为1。自左下至右上的对角线代表阳性预测值(PPV),理想预测应在对角线处取值为1,其他区域为0。随机划分验证用于评估模型在分布内条件下的性能,而CATH-LSO测试用于检验其分布外泛化能力。在该基准中,测试未进行标签平衡处理,相应的真实标签数量以灰色一维直方图表示。每个CATH-LSO编号对应一个特定蛋白与PDB编号,测试集由PDBbind2020数据库中的蛋白–配体复合物及PubChem中对应的同系配体系列组成。虽然每个测试集仅包含单一蛋白,但在训练阶段整个对应的CATH-LSO超家族均被完全排除,以避免同源蛋白或小分子泄漏。CATH-LSO与PDB编号的对应关系如下:1.10.510.10–2ITZ(表皮生长因子受体),2.40.60.10–2IQG(β-分泌酶1),2.40.10.10–3QTO(凝血酶),2.60.40.10–6AWO(钠依赖型血清素转运蛋白),1.10.565.10–1ZUC(孕激素受体),3.10.200.10–4YXI(碳酸酐酶2),1.20.920.10–4HBY(含溴结构域蛋白4),3.30.565.10–6ELO(热休克蛋白HSP90),1.10.1300.10–1Q9M(cAMP特异性磷酸二酯酶PDE4D2),以及3.40.190.10–1PBQ(N-甲基-D-天冬氨酸受体亚基1)。

2.2 分布外靶点的模型校准分析

在虚拟筛选中,模型的实用性不仅取决于其排序能力,还取决于校准性能。所谓校准,是指模型预测的概率与真实活性可能性之间的一致程度。为此,研究在分布外的CATH-LSO划分上评估模型校准情况,以模拟模型在新靶点上的表现(见图6)。校准曲线展示了模型预测概率与实际观测准确率(即正确分类比例)之间的关系,并在十个CATH-LSO测试集上取平均。阴影区域表示标准差,用于反映不同划分间校准一致性。理想校准模型的预测点应分布在虚线对角线上,即若模型预测概率为80%,实际阳性比例也应接近80%。

结果表明,不同模型在校准性能上存在显著差异。GNINA的VinaScore基线表现不均,在低亲和力等级上校准较差,而在pKd为4至7的范围内逐渐呈线性趋势,但整体斜率仍低于理想状态。两种基准深度学习模型GAT与3D-CNN在多数亲和力阈值上均校准较差,其预测曲线趋于平坦,与理想对角线相关性较低,说明其输出概率并非真实活性概率的可靠估计。相比之下,CORDIAL的预测校准效果显著更好。在前六个亲和力阈值(pKd16)中,模型的校准曲线基本呈线性,且紧密跟随理想对角线,仅在高阈值区间表现出轻微的系统性过置信现象。当阈值升至pKd7时,曲线稳定性下降,尤其在高预测概率处波动较大;在最高阈值pKd8下,模型输出概率被压缩,准确率无论预测概率高低均难超过0.3(见图6)。CORDIAL的良好校准性印证了其核心假设——专注于相互作用空间学习有助于提升模型的泛化能力。这一性能部分也得益于其针对有序分类任务设计的训练策略:将每个累积亲和力阈值视为独立的二分类问题,并采用独立的二元交叉熵损失,使模型能够为每一级别学习出较为准确、可校准的概率。

2.3 特征显著性分析

最后,研究评估CORDIAL是否学习到了具有化学意义的模式。为此,进行了特征显著性分析,以揭示哪些特征对模型预测影响最大(见图7)。该分析计算了模型输出概率对每个输入特征的平均符号梯度,并在训练集的大规模随机样本上取平均。得到的热图展示了24种最常见相互作用特征在不同距离下的显著性变化,涵盖八个亲和力阈值。红色表示正梯度,即特征强度增加会提升预测概率;蓝色表示负梯度,即该特征增强会降低结合预测概率。

结果显示,模型学习到的规律符合物理直觉,并随亲和力水平呈合理演化。在最低亲和力阈值(pKd1)下,模型表现出筛除不合理立体与化学接触的“门控”效应,针对过近原子接触学习到普遍的惩罚信号,表现为在短距离(<2.5 Å)内多个特征呈现强烈且一致的负梯度(蓝色)。随着亲和力阈值提升至中等范围(pKd46),显著性模式开始转变:短程负梯度减弱,而在物理上合理的相互作用距离(约2.5–5.0 Å)处出现明显的正梯度(红色),且这些梯度在相邻距离区间呈连续分布,形成平滑而非噪声化的结构,表明模型已学会在最佳距离范围内关联特定相互作用类型与更高的结合概率。

在最高亲和力阈值(pKd78)下,显著性图变得稀疏,整体梯度幅度减小,这与高亲和力结合依赖少数高优化相互作用的理论相符。总体而言,CORDIAL显著性图中呈现出的清晰、依距离变化且符合化学逻辑的模式,证明其预测结果建立在对距离依赖性相互作用的连贯物理解释之上。

图6 | 展示了模型在分布外测试集上的校准情况。 横轴为模型预测的概率,纵轴为实际观测准确率(即阳性样本比例)。每个概率区间中,实线表示在十个CATH-LSO测试集上的平均准确率,阴影区域表示标准差。理想校准模型应沿虚线对角分布。分析在经bootstrap平衡的测试集上进行,模型输出的logits经sigmoid函数转换为概率。不同模型的颜色标注如下:GNINA(紫色)、CORDIAL(蓝/绿色)、GAT(金/绿色)与3D-CNN(粉/红色)。

3 讨论

精确且高效地预测蛋白–配体结合亲和力是现代药物发现的核心环节,但现有计算方法仍面临显著局限。基于物理的计算方法虽具高精度,却因计算代价极高而难以应用于大规模化学空间筛选;而快速的经验打分函数则往往缺乏准确性与可靠性。机器学习(ML)被寄予厚望,试图弥合精度与效率之间的鸿沟,但模型泛化性不足长期阻碍了其在药物设计中的实际应用。多数模型在现有数据集上训练后,面对新蛋白靶点或新化学体系时常失效,难以在真实药物筛选中稳定发挥作用。研究假设这种失败源于模型内部的竞争机制——模型一方面从训练数据中频繁出现的结构基序中学习到伪相关,另一方面又试图学习可迁移的分子间相互作用物理化学规律,两者之间的冲突导致泛化能力受限。

图7 | 展示了预测亲和力阈值下的距离分辨特征显著性分析。 每个子图以热图形式显示了24种最常见相互作用特征在不同距离(Å)下的平均符号梯度(显著性),对应于特定结合亲和力阈值(pKd1pKd8)。行表示不同的理化特征对(详见材料与方法部分),列表示从0.0至16.0 Å、以0.5 Å为间隔划分的距离区间。纵轴上每个特征的取值为非负和,代表该相互作用类型的总体强度。颜色反映特征强度变化对模型预测的影响:红色(正梯度)表示当某类相互作用强度增加时,模型预测的对应活性阈值概率上升;蓝色(负梯度)则表示增强该相互作用会降低模型预测的活性概率。所有显著性热图均基于从CORDIAL完整训练集中随机抽取的81,920个蛋白–配体复合物生成。

该研究通过两个主要方向提出解决框架。其一是设计严格的验证方案CATH-LSO,用于系统评估模型的泛化性能;其二是构建仅基于相互作用空间的深度学习模型CORDIAL,以验证具备物理约束的归纳偏置能否克服现有模型的泛化缺陷。结果显示,当应用于高强度的LSO基准时,不同架构偏置下的模型表现出显著差异。基于图结构或体素的模型在分布内(随机划分)测试中表现良好,但在分布外任务上预测能力明显下降;相反,CORDIAL的性能保持稳定。这一结果揭示出架构灵活性与数据需求之间的根本权衡:高度灵活的架构(如GNN与3D-CNN)虽具有强大的表达能力,但需极其庞大且多样的数据集才能在权重空间中学会优先捕捉真实的物理相互作用,而非依赖结构捷径。该研究提供了一种相反的思路——通过引入具备强任务导向归纳偏置的专用架构,限制模型学习伪相关的能力,从而在中等规模数据集上实现稳定的泛化表现。其代价在于需要更多人工介入的特征与结构设计,且相较于在极大数据上训练的通用模型,其表达能力可能略受限制。

一个计算模型在药物发现流程中的实际价值,不仅取决于基准排序性能,还取决于其预测的校准性。良好的模型校准对于解释虚拟筛选结果至关重要。如果模型虽然能正确排序化合物,但输出分数范围过于压缩且缺乏可区分性,那么难以从结果中识别出真正的高价值命中物,必须依赖每个靶点的额外实验校准。CORDIAL在未见过的蛋白家族上依然保持可靠的校准性能,意味着其置信度分数能更直接反映真实活性概率。这一特性有助于提升机器学习预测的可信度,并加速从虚拟筛选到实验验证的转化过程。

研究同时指出当前工作的若干局限。虽然CATH-LSO是一项严格的基准方案,但仍有改进空间。CATH以蛋白结构域为分类单位,而实际靶点可能为多结构域复合体。当前协议在训练集中排除了PDBbind数据集中最常见的十个超家族的所有蛋白,但测试集中若含有多结构域蛋白,仍可能与训练集共享次级结构域。未来的基准可进一步提高严格性,如排除与被留出的任何超家族共享任一结构域的蛋白,或仅针对真实配体结合域进行留出划分。构建具挑战性的验证标准是该领域的重要方向。例如,结构预测领域的CASP挑战通过持续反馈与比较促进了结构生物学的重大突破。研究期望本工作能够成为推动亲和力预测建立更严格评测体系的契机。

CORDIAL本身亦存在改进空间。目前其缺乏对配体构象(pose)的显式判别能力,并为了计算效率以一维距离分布代替部分几何分辨率。未来工作可加入更多几何信息,或建立预测构象置信度与亲和力之间的约束关系;同时,可将固定的原子特征扩展为可学习的原子对嵌入,并优化数据整理策略以更好地处理如PubChem中包含的蛋白突变信息。此外,其基于亚结构的数据增强策略亦可进一步改进,例如引入靶点特异的药效团约束。

总体而言,CORDIAL展示了一种有望突破机器学习亲和力预测泛化瓶颈的策略。通过将模型的归纳偏置与分子相互作用的基本物理原理对齐,该研究提供了一种构建可靠、可泛化预测模型的验证途径。尽管CORDIAL并非旨在取代统计物理方法(如相对结合自由能FEP计算),但其所体现的原则为加速命中化合物发现及构建更可信的结构基础计算工具提供了重要思路与启示。