Nat. Commun. 2024 | OpenVS: 人工智能加速的虚拟筛选平台用于药物发现
基于结构的虚拟筛选(SBVS)是现代药物发现的重要工具,能够在庞大的化学空间中快速识别潜在的先导化合物。然而,现有方法在处理数十亿规模的分子库时往往面临效率与准确性的双重挑战:物理学驱动的对接虽具备较高可靠性,但计算代价过于昂贵;而深度学习模型虽具速度优势,却在泛化性与预测精度上存在不足。当前业界领先的商业平台如Schrödinger Glide和CCDC GOLD虽能支持超大规模筛选,但其封闭性限制了更广泛的应用与改进。相比之下,开源工具如AutoDock Vina在可及性上更具优势,但其预测性能仍存在差距。因此,迫切需要一种开放、可扩展且具备最新水平预测能力的虚拟筛选平台,既能整合物理学驱动的高精度对接,也能结合人工智能策略实现超大规模分子库的高效筛选。本研究提出并实现了这样的平台——OpenVS,展示了其在多个药物靶点上的稳健性与广泛适用性。
获取详情及资源:
0 摘要
基于结构的虚拟筛选是早期药物发现的重要手段,但其效果依赖于结合构象和亲和力预测的准确性。周等人提出的RosettaVS方法通过建模受体柔性显著提升了预测性能,并整合进开源AI加速虚拟筛选平台。该平台在一周内完成数十亿分子的筛选,成功发现KLHDC2的7个命中物(14%)和NaV1.7的4个命中物(44%),均具备个位数微摩尔亲和力。X射线晶体学进一步验证了KLHDC2复合物的结合构象,凸显了该方法在先导化合物发现中的潜力。
1 引言
基于结构的虚拟筛选在药物发现中扮演着核心角色,通过识别潜在候选化合物,为进一步优化和开发提供了方向。随着包含数十亿分子的化学库日益易得,研究者对在这一庞大化学空间中进行筛选以寻找先导化合物的兴趣不断增长。然而,尽管筛选这些超大规模分子库具有巨大优势,但成功案例仍然有限,并且基于物理学的对接方法在面对完整的超大分子库时,往往面临时间和成本过高的挑战。
为应对这些问题,近年来出现了一系列技术,包括可扩展的虚拟筛选平台以在高性能计算集群(HPC)上并行对接运行,利用深度学习进行化学空间探索或主动学习以仅筛选小部分分子库而达到相似效果,分层的基于结构的虚拟筛选,以及GPU加速的配体对接。然而,这些策略的成败仍然高度依赖于配体对接程序的准确性——既要能预测蛋白-配体复合物的结构,又要能区分并优先识别真正的结合分子。
目前领先的物理学驱动对接程序,如Schrödinger Glide和CCDC GOLD,虽有配套的超大库虚拟筛选平台,但并非自由开放。相比之下,作为最常用的免费工具之一,Autodock Vina的筛选准确性略低于Glide。此外,仍然缺乏一种开放源码、可扩展,并结合主动学习的虚拟筛选平台来处理超大分子库。
深度学习的兴起带来了一些快速预测蛋白-配体复合物结构的模型,这些方法在时间上显著缩短,但更适合于盲对接问题(即小分子结合位点未知的情况)。在结合位点已知的场景下(虚拟筛选中普遍存在),物理学驱动的配体对接方法依然优于深度学习模型,并且深度学习方法在应对未见过的复合物时泛化性较差。
基于此,该研究旨在开发一种最新一代(state-of-the-art, SOTA)的物理学驱动虚拟筛选方法,并构建一个能够高效、稳健地筛选数十亿规模分子库的开源虚拟筛选平台。研究团队在此前的Rosetta通用力场(RosettaGenFF)基础上进行改进,提出了RosettaGenFF-VS,并据此开发了基于Rosetta GALigandDock的全新虚拟筛选流程,即RosettaVS。同时,在对接协议中引入了显著的受体柔性,使其不仅能够模拟侧链的灵活性,还能处理一定范围的主链运动,这对于需要模拟配体结合引发构象变化的靶点尤为关键。
在此基础上,研究团队建立了一个高度可扩展、人工智能加速的开源虚拟筛选平台(OpenVS),并整合了药物发现所需的全部核心模块。利用该平台,研究者对两个无关蛋白进行筛选:人泛素连接酶KLHDC2和人电压门控钠通道NaV1.7。整个虚拟筛选过程在配置有3000个CPU与单张RTX2080 GPU的本地HPC集群上,每个靶点的筛选均在七天内完成。
通过初步筛选,发现了KLHDC2的一个候选化合物和NaV1.7的四个候选化合物,均表现出个位数微摩尔水平的结合亲和力。进一步使用针对性的精细化分子库,又为KLHDC2发现了6个具备相似亲和力的候选分子。最终,通过X射线晶体学成功验证了KLHDC2复合物的对接结构,与预测结合构象高度一致。这一迭代探索、筛选与实验验证的过程充分展示了该方法的稳健性与潜力,为在超大分子库中发现有前景的候选化合物提供了有力工具。
2 结果
2.1 人工智能加速的虚拟筛选平台的开发
Rosetta GALigandDock是一种基于物理力场的配体对接方法,依赖于RosettaGenFF,并已在配体对接精度上表现出优越性能。该方法能够准确建模蛋白-配体复合物,既支持受体侧链的完全柔性,也允许主链的部分柔性。然而,该方法并不能直接应用于大规模虚拟筛选,原因主要有两点:
- 难以准确建模某些功能基团(原始方法仅在数十万化合物上验证,而本研究需处理数十亿分子)
- 缺乏熵模型,无法准确区分并排序结合到同一靶点的不同化合物。除此之外,若基于物理学方法对数十亿分子库中每一个化合物逐一对接,其计算代价将极为高昂。
为解决上述问题,研究团队对方法进行了多方面优化,并修复了关键缺陷,以支持数十亿小分子的建模。
首先,改进了RosettaGenFF,引入了新的原子类型和新的扭转势,并优化了预处理脚本(详见“方法”部分)。
其次,开发了专用于虚拟筛选的RosettaGenFF-VS,能够对同一靶点的不同配体进行排序。
该模型将先前的焓变计算(
为使超大规模分子库筛选成为可能,研究团队设计了两项核心策略。
首先,提出了改良的对接流程——RosettaVS,其中包含两种高速配体对接模式:虚拟筛选快速模式(VSX),用于初步快速筛选;以及虚拟筛选高精度模式(VSH),用于对初筛得到的候选化合物进行最终精确排名。这两种模式的关键差异在于VSH引入了完整的受体柔性(详见“方法”)。
尽管有这些加速措施,对超过十亿分子的逐一对接仍然代价过高。
因此,在借鉴近期相关工作的基础上,研究团队开发了一个开源虚拟筛选平台(OpenVS),结合了主动学习策略,在对接计算过程中同步训练靶点特异性的神经网络,从而高效筛选并优先挑选出最具潜力的化合物进行昂贵的精细对接计算。同时,该平台在设计上具有高度可扩展性与并行性,能够满足大规模虚拟筛选的需求。
2.2 RosettaVS在虚拟筛选基准测试中展现出最新水平的性能
研究首先使用CASF2016数据集对RosettaGenFF-VS的性能进行了基准测试。CASF2016包含285个多样化的蛋白-配体复合物,是专门用于评价打分函数的标准基准数据集。该数据集提供了所有小分子结构作为虚拟配体(decoys),从而将打分过程与分子对接中固有的构象采样过程有效解耦。在测试中,使用docking power来评估对接精度,使用screening power来评估筛选精度。
近年来,基于深度学习的打分函数在这些基准上展现了优越的表现,但这些方法在应对未见过的化合物和受体时的泛化能力仍不清晰,并且大多未采用严格的训练/测试划分。即使在配体使用0.6的Tanimoto相似度和蛋白使用30%的序列同一性作为阈值时,这些验证基准中仍可能存在数据泄漏。因此,本文的后续比较主要集中在其他基于物理的打分函数上,包括性能最佳的方法。
结果显示,RosettaGenFF-VS在区分天然结合构象与虚拟构象方面取得了领先表现(见图1d与补充图3)。进一步的结合漏斗分析(binding funnel analysis)表明,该方法在不同范围的配体RMSD上都表现出更高效的能量势驱动能力,能够更有效地收敛至最低能量构象(补充图7)。
随后,进行了screening power测试,以评估打分函数在大量无活性分子中识别真正结合分子的能力。该测试使用两个指标:其一是富集因子(EF),衡量在给定的X%分子中,方法能否在早期阶段识别出真正的活性分子;其二是成功率,即是否能将最佳结合分子排在所有目标蛋白配体的前1%、5%或10%之中。结果显示,RosettaGenFF-VS的前1%富集因子(EF1%=16.72),远超第二名(EF1%=11.9),差距显著(图1e与补充图4)。在识别最佳结合分子方面,RosettaGenFF-VS同样在前1%、5%与10%排名中均优于其他方法(图1f与补充图5)。在不同的screening power子集上分析发现,该方法在更极性、更浅、更小的蛋白结合口袋中也展现出明显改进(补充图8)。
然而,在真实的虚拟筛选场景中,对接方法不仅需要准确打分,还必须有效完成构象采样。为此,研究团队进一步在DUD数据集上评估了RosettaVS流程中的VSX与VSH模式。DUD包含40个与制药相关的蛋白靶点和超过10万小分子,使用AUC与ROC富集作为衡量指标。ROC曲线用于区分活性分子与虚拟分子,其曲线下面积(AUC)反映整体性能,而ROC富集则在给定的假阳性率下评估真正阳性分子的富集情况,是大规模筛选中关键指标。
结果表明,RosettaVS在AUC与ROC富集方面均处于领先地位(图1b, c与补充图9)。尤其值得注意的是,在早期ROC富集(0.5%/1.0% FPR)上,RosettaVS的表现达到第二名方法的两倍,展现出最新水平(state-of-the-art)的早期富集性能,进一步突出了其有效性。此外,由于能模拟配体诱导的口袋侧链构象变化,VSH模式在性能上略优于VSX模式(详见“方法”)。
2.3 发现作用于KLHDC2泛素连接酶的小分子候选物
为展示新方法的有效性,研究团队针对人类KLHDC2泛素连接酶展开了大规模虚拟筛选。此前尚未有任何已知的小分子药物样结合物与KLHDC2相关。KLHDC2作为CUL2-RBX1 E3复合物的底物受体亚基,具有KELCH重复螺旋桨结构域,能够以纳摩尔亲和力识别其底物的二甘氨酸C端degron。研究目标是寻找能够锚定在KLHDC2二甘氨酸结合位点的化合物,该位点近期被认为是有潜力的PROTACs E3平台,用于靶向蛋白降解。
研究使用OpenVS平台与RosettaVS的VSX模式,对Enamine-REAL库(~55亿种可合成小分子,合成成功率约80%)进行筛选。随着对接迭代的推进,发现的候选化合物表现出越来越高的预测结合亲和力:前0.1%分子的预测亲和力由第一次迭代的−6.81 kcal/mol显著提升至最后一次迭代的−12.43 kcal/mol。在第八次迭代后未再出现新的全局最低能量构象,因此在第十次迭代时结束筛选。
随后,研究团队将虚拟筛选中排名前5万的小分子使用VSH模式重新对接,以允许受体结构柔性。整个计算过程在配置有3000个CPU和一张RTX2080 GPU的本地HPC集群上于一周内完成,约有600万个分子(占库中0.11%)被成功对接。从中挑选出排名前1000的分子,进一步过滤掉预测溶解度低、结合构象中存在未满足氢键的分子,并通过相似性聚类减少结构冗余。最终54个通过筛选与聚类的分子在PyMol中进行人工检查,评估其相互作用与构象合理性,最后选择37个用于合成,其中29个被成功合成。
在AlphaLISA竞争实验中,每个化合物都被测试是否能够与二甘氨酸C端degron肽竞争结合KLHDC2。结果显示,多个分子具有可检测活性,其中化合物29(C29)表现最突出,IC50约为3 μM(图2a, c),并通过生物层干涉实验(BLI)进一步验证了这一结果。
为揭示其结合模式,研究将KLHDC2蛋白晶体与化合物29共同浸泡,并解析了分辨率为2.0 Å的复合物晶体结构。结果表明,C29与degron结合位点结合,其末端羧基与KLHDC2中两个关键精氨酸残基(Arg236与Arg241)及一个丝氨酸残基(Ser269)形成相互作用,这些残基正是识别degron极端C端的核心位点。化合物中靠近羧基的三唑基团嵌入在Tyr163、Trp191与Trp270三个位点之间,并通过NH…N氢键进一步稳定。分子中部的羰基与Lys147形成氢键,叔丁基苯基则与degron结合口袋的辅助腔紧密堆积。相较于分子两端,分子中间的二甲基硫醚连接基表现出较差的电子密度,表明其具有较高结构柔性(图2e)。总体而言,化合物29的结合模式高度类似于二甘氨酸C端degron,且结合构象与预测结果高度一致(图2f)。
在获得初始命中物后,研究进一步扩展至ZINC22库(约41亿个可直接对接的小分子,其中很大一部分源自Enamine REAL库)。通过对含有乙酰-氨基-甲基-三唑乙酸骨架的子结构进行搜索,得到约381,567个分子。这些分子经过GALigandDock柔性对接筛选,并从排名前100的结构中人工挑选出21个化合物用于合成。实验结果显示,其中6个化合物在AlphaLISA竞争实验中表现出个位数微摩尔水平的IC50,再次验证了该方法的有效性(图2b, d)。
未来仍需进一步优化这些化合物的效力,以期达到纳摩尔水平。为检验筛选流程的可靠性,研究还重复了部分计算实验,并再次发现了确认的最佳命中物C2.8。
2.4 发现作用于NaV1.7 VSD4的小分子拮抗剂
为评估虚拟筛选流程的广泛适用性,研究团队将其应用于人类电压门控钠通道hNaV1.7,特别是靶向其电压感应结构域IV (VSD4)。该结构域参与NaV通道的快速失活,并包含一个可结合小分子的受体位点,这些小分子能够稳定通道的失活状态。
研究使用与KLHDC2相同的虚拟筛选流程,对ZINC22库(~41亿分子)进行筛选。与KLHDC2类似,随着迭代进行,发现的候选化合物表现出越来越优的预测结合亲和力:前0.1%分子的预测亲和力从第一次迭代的−10.8 kcal/mol提升至最后一次迭代的−18.2 kcal/mol。在第七次迭代时,最佳预测亲和力达到收敛,因此终止筛选。
在此基础上,将虚拟筛选排名前10万个的小分子使用VSH模式重新对接,以考虑受体结构的柔性。大约有450万个分子(占ZINC22库的0.11%)被完成对接。研究团队先对前10万的分子进行聚类,再对前1000个聚类代表分子进行过滤。最终共有160个通过聚类与筛选的分子进入人工检查。为保证所选分子的化学新颖性,特别排除了含有已知芳基磺酰胺基团的分子,以及在结构上类似抗组胺药或β受体阻滞剂的分子。最终,从ChEMBL数据库中已知NaV1.7抑制剂的比对中,选择了10个与其Tanimoto相似度低于0.33的分子用于合成。
其中9个分子被成功合成,并在稳定表达hNaV1.7的HEK-293细胞中通过全细胞膜片钳电生理实验测定其活性。结果显示,化合物Z8739902234表现出最高效力,其IC50为1.3 μM,并且作用依赖于NaV1.7的失活状态(图4与补充图18)。此外,还有4个化合物的IC50优于10 μM,命中率达到44.4%(补充图17)。
值得注意的是,Z8739902234的作用具有状态依赖性(补充图18左图),并且在hNaV1.7与hNaV1.5及hERG通道之间表现出中等选择性(补充图18右图)。
3 讨论
该研究提出了一种最新一代的基于物理学的虚拟筛选方法,并将其整合进一个全面、可扩展的平台中,该平台结合了主动学习以支持大规模虚拟筛选与先导化合物发现。通过这一方法,成功发现了7个可结合新的E3连接酶KLHDC2的小分子,以及4个作用于人电压门控钠通道NaV1.7 VSD4的小分子。在CASF2016和DUD基准测试上的优异表现,确立了RosettaGenFF-VS与RosettaVS作为领先的基于物理学的配体对接与虚拟筛选方法的地位。
RosettaVS的突出性能来源于两个关键进展。首先,高对接精度与高采样效率的结合,使得配备RosettaGenFF-VS的虚拟筛选流程能比其他方法更有效地找到蛋白-配体复合物的真实最低能量结合构象。其次,与大多数只在更疏水、更深或更大蛋白结合口袋上效果良好的虚拟筛选方法不同,本方法在更极性、更浅、更小的结合口袋上同样展现出卓越表现,这可能得益于RosettaGenFF-VS在蛋白-配体与配体自身分子能量之间实现的更优平衡。
尽管该方法在各个方面均优于现有技术,但仍存在进一步提升的空间。近年来,人工智能在诸多科学领域的应用呈现快速增长趋势,包括蛋白结构预测、药物发现以及材料设计。未来的改进可能包括:GPU加速与深度学习模型的融合,例如利用GPU加速配体对接,或借助生成式AI提升结合构象的高效生成;进一步优化代理的主动学习模型,以更好地引导化学空间探索;引入具备更强泛化性的深度学习打分函数,以提升真阳性结合物的识别能力。另一个有价值的改进方向是利用已知的非小分子结合物(如大环化合物或抗体环区)作为模板结构,来指导小分子虚拟筛选。
可以预见,未来基于结构的虚拟筛选方法若与深度学习技术进一步结合,将显著提升虚拟筛选的准确性与效率,推动药物发现进入新的阶段。