NC 2026 | AQuaRef: 利用机器学习加速蛋白质结构的量子精修

📄 论文: https://doi.org/10.1038/s41467-025-64313-1
💻 代码: https://github.com/qrefine/qrefine

0 摘要

冷冻电镜和X射线晶体学为获得生物大分子原子级细节模型提供了关键的实验数据。对此类模型进行精修时,通常依赖基于规则库的立体化学参数,但这类方法不仅受限于已知化学实体,也无法纳入具有实际意义的非共价相互作用。量子力学计算有望缓解这些问题,但对于大分子而言,其计算代价过于高昂。相关研究提出了一种新的人工智能驱动量子精修方法AQuaRef,该方法基于AIMNet2机器学习原子间势能模型,能够以显著更低的计算成本模拟量子力学水平的效果。通过对41个冷冻电镜结构和30个X射线结构进行精修,结果表明,这一方法在保持与实验数据同等甚至更优拟合程度的同时,能够获得几何质量更高的原子模型。值得注意的是,AQuaRef还有助于确定质子位置,这一点在人类帕金森综合征相关蛋白DJ-1及其细菌同源蛋白YajL中短氢键这一具有挑战性的案例中得到了展示。

1 引言

尽管AlphaFold和RoseTTAFold等预测建模方法的进展,已经为结构生物学提供了强有力的工具,但它们仍然存在局限。蛋白质晶体学和冷冻电镜等实验方法,依旧是结构生物学和药物开发的基础。实验数据能够帮助发现生命演化过程中出现的新结构,这些结构可能具有此前从未见过的特征。对这类未知对象的探索,依赖于实验所提供的无偏信息。

原子模型精修是晶体学或冷冻电镜结构解析接近最后阶段的关键步骤,目标是在尽可能贴合实验数据的同时,生成满足标准验证准则的分子模型。精修过程高度依赖立体化学约束,以便在拟合实验数据时维持原子模型的正确几何构型。这些约束通常来自标准规则库,其中记录了已知化学实体的拓扑和参数,并被CCP4、Phenix等常用软件广泛采用。

基于规则库的约束存在多方面限制。首先,这类约束通常只包含维持共价键长、键角、二面角、平面性和手性的信息,并通过非键排斥来避免原子碰撞。然而已有研究表明,在低分辨率条件下,这些约束不足以维持真实且具有化学意义的大分子几何结构。因此,还需要额外加入蛋白质主链 $ϕ / ψ$ 角、侧链 $χ$ 角、氢键参数以及 $π$ 堆积相互作用等约束,以稳定蛋白质或核酸的二级结构。这些额外约束无法仅从原子模型本身可靠推断,往往需要借助同源高分辨率模型等额外信息进行人工标注和整理,这一过程容易出错。其次,规则库约束只能参数化已知化学实体,例如标准氨基酸、核酸以及预先定义的配体。因此,任何非标准实体或相互作用,如新型配体或链间共价交联,都需要手动注释和定义,否则精修可能无法正确进行,甚至根本无法开展。最后,局部化学相互作用导致的标准共价几何偏离并不少见。尽管这些偏离本身是合理的,约束项却可能将其误判为需要“纠正”的错误。简单约束方法的优势在于,它们给整个精修流程带来的额外计算开销极低。

一个可能的改进方向,是利用经典力场来描述几何相关要素。然而,经典力场同样存在局限:它们需要为新的化学物种进行参数化,也无法区分处于不同化学环境中的化学等价键。量子精修则是另一种根本不同的思路,它通过在拟合实验数据的同时,引入与体系量子力学能量相关的项来进行平衡。已有研究表明,整个原子模型都可以从完整的量子力学处理之中获益。图1展示了蛋白质量子力学计算的发展时间线,概括了四个关键阶段的技术和方法进步,尤其强调了模型精修所需要的能力,因为在精修过程中,必须对整个蛋白质结构的能量和梯度进行数百到数千次评估。传统上,由于计算需求过高,量子精修一直被认为不适用于大分子。许多方法通常只关注大分子中的局部感兴趣区域,例如配体结合口袋或酶活性位点,而对分子其余部分采用经典方法处理。此后,已有大量相关方法和实现被陆续提出,其中较为重要的里程碑之一,是借助GPU加速代码,实现了对由数百个原子组成的肽和小型蛋白质进行量子力学计算。基于相互作用的模型划分方法,通过将体系拆分为具有化学意义的片段,解决了量子计算的可扩展性问题,进而使更大蛋白质的精修成为可能,但这种方法的计算代价仍然很高。

相关研究表明,机器学习原子间势能模型可以为完整量子精修提供一种在计算上可行的替代方案。研究中提出了人工智能驱动的量子精修方法AQuaRef,其核心是基于AIMNet2架构开发的专用势能模型。为了使这一势能适用于结构精修,研究在一个专门构建的多肽数据集上训练了模型,该数据集同时引入了隐式溶剂校正。这一方案利用了AIMNet2架构的高计算效率,包括旋转不变的可学习特征、多体相互作用的消息传递机制,以及对体系总电荷的显式处理。由此得到的专用势能使AQuaRef能够以远低于传统量子方法的计算成本,实现接近量子力学水平的高精度结构精修。

在不同分辨率下,对选定的冷冻电镜和X射线原子模型进行精修表明,AQuaRef能够在保持甚至提升与实验数据一致性的同时,生成几何质量优于传统方法的原子模型。这项工作构成了首个将机器学习原子间势能模型用于整条蛋白质量子精修的实例,不同于近期另一类将机器学习势能与多层ONIOM型QM/MM划分方法结合的做法。

图1｜朝向基于量子力学的蛋白质模型精修发展的若干关键进展节点。 该时间线展示了在利用晶体学或冷冻电镜实验数据对完整蛋白质结构的原子模型进行量子力学精修过程中,若干具有代表性的关键里程碑。

2 结果

从概念上看,基于量子力学的原子模型精修与经典精修非常相似,二者都是通过迭代调整原子模型参数,以最小化残差 $T = T_{data} + w \times T_{restraints}$ 。其中, $T_{data}$ 描述模型与实验数据之间的拟合程度, $T_{restraints}$ 表示化学约束项, $w$ 则是一个先验未知的权重。然而,量子精修与经典精修之间存在四个根本性的差异。

首先,量子精修中的约束并非来自通用规则库,而是针对当前所研究的大分子,由量子力学计算直接导出。其次,量子精修对初始原子模型的要求比标准精修更加严格:原子模型必须具有正确的质子化状态,原子组成完整,并且不能存在严重的几何学错误,例如空间位阻冲突或共价键断裂。第三,晶体学软件包通常能够天然处理晶体对称性,而量子力学计算程序一般并不具备这一能力。第四,晶体学软件能够处理以替代构象形式建模的静态无序,而量子力学程序通常缺乏这一功能。除静态无序处理这一当前仍存在的限制之外,这些量子精修特有的细节问题都已经在量子精修软件包Q|R中得到考虑。该软件包作为这项工作的一部分持续开发,并提供了在Phenix软件中实现量子精修所需的必要流程。

传统量子力学方法,例如用于 $N$ 电子体系的密度泛函理论,在存储上需要 $O (N^{2})$ ,在算术运算上需要 $O (N^{3})$ ,其中 $O (\cdot)$ 表示计算成本随体系规模增长的方式。这样的 $O (N^{3})$ 复杂度构成了一个关键瓶颈,限制了对蛋白质这类大型真实生物体系的研究能力。图2展示了AIMNet2模型的计算扩展性:无论是能量和力的计算,还是GPU峰值显存占用,都随体系规模呈线性增长,即 $O (N)$ 。对于一个包含100,000个原子的大型蛋白质体系,单点能量和力的计算只需0.5秒。总体来看,一个大约由180,000个原子组成的原子模型,可以装入单张NVIDIA H100 GPU的80GB显存中。

相关研究利用新的量子精修流程,测试了41个冷冻电镜原子模型、20个低分辨率X射线模型以及10个超高分辨率X射线模型。研究采用了标准立体化学指标和模型与数据拟合指标,结合MolProbity验证工具,以及新开发的用于评估氢键质量的指标,对这些原子模型进行评价。通常情况下,量子精修所需时间约为标准精修的两倍,但往往又短于加入额外约束项的标准精修,例如加入Ramachandran图约束、二级结构约束和侧链rotamer约束的情况。在这项工作涉及的大约70%的模型中,量子精修耗时不到20分钟,最长约为1小时。这样的计算可以在配备GPU的笔记本电脑上完成,唯一的限制因素是可用的GPU显存。

图2｜AQuaRef中AIMNet2机器学习原子间势能模型的计算扩展性。 横坐标为体系中的原子数,左纵坐标表示能量和力的计算时间,右纵坐标表示GPU峰值显存占用。所有计算均在单张Nvidia H100 PCIE 80GB GPU上完成。

2.1 量子精修

AQuaRef精修流程首先检查原子模型的完整性,随后补加所有缺失的原子。如果模型此前是在不含氢原子的条件下完成精修,这一步可能会引入空间位阻冲突。对于那些缺失原子无法通过简单方式补全的模型,例如缺失主链原子的情况,则不能用于量子精修。如果检测到原子冲突或其他严重的几何错误,流程会先利用标准约束进行快速几何规整,并尽量让原子只发生最小幅度的移动,以消除这些冲突。

对于晶体学精修,为了考虑晶体对称性以及晶胞周期性带来的相互作用,需要通过施加相应空间群对称操作将模型扩展为一个超晶胞。随后,再根据与主副本原子之间的距离截取模型,仅保留落在规定范围内的对称副本部分。针对冷冻电镜数据的精修则不需要这一步。完成原子补全并在必要时扩展后的模型,接着进入Q|R软件包中实现的标准原子模型精修流程。

图3｜对41个低分辨率冷冻电镜模型和20个低分辨率X射线模型的精修结果汇总,比较了Phenix中实现的经典方法与AQuaRef中的AIMNet2机器学习原子间势能模型。 a-c分别展示使用标准立体化学约束(蓝色)和AQuaRef约束(橙色)的结果。所有箱线图中,中心线表示中位数,箱体上下边界分别对应第25和第75百分位数,须状线延伸至距离上下四分位数1.5倍四分位距范围内的数值。a展示MolProbity评分(MP score)、Ramachandran图Z评分(Rama-Z)、CaBLAM不利构象比例,以及精修模型相对于初始模型的均方根偏差。b展示冷冻电镜模型中实验图与模型生成图之间的互相关(CCmask)以及EMRinger评分。c展示X射线模型的 $R_{free}$ 与 $R_{free} - R_{work}$ ( $Δ R$ )。绿色带表示对应指标的理想范围。d为氢键参数的偏度-峰度图,参数包括氢(H)…受体(A)距离和供体-H…A角,从左到右分别对应使用标准约束、在标准约束基础上加入Ramachandran图约束、二级结构约束和侧链rotamer约束,以及使用AQuaRef约束的精修结果。e展示精修模型与高分辨率同源模型之间的均方根偏差,比较标准约束与AQuaRef约束精修结果,其中蓝色位于左下,表示匹配笛卡尔坐标计算得到的偏差,红色位于右上,表示匹配扭转角计算得到的偏差。f汇总所有测试模型的平均值,包括MolProbity评分、Ramachandran Z评分、CaBLAM异常值、精修模型与高分辨率同源模型之间匹配扭转角的均方根偏差,以及X射线模型的 $R_{free} - R_{work}$ ( $Δ R$ )和 $R_{free}$ ,还有冷冻电镜模型的CCmask与EMRinger评分。图中蓝色菱形表示标准约束,蓝色圆点表示在标准约束基础上加入Ramachandran图、二级结构和侧链rotamer约束,红色五角星表示AQuaRef约束。红色误差条表示带星号数据对应的标准差。对于几何质量指标(MolProbity评分、Rama-Z、CaBLAM以及精修模型与同源模型之间的均方根偏差),平均值和标准差基于全部61个模型计算。CCmask的平均值和标准差基于41个冷冻电镜模型计算,而 $R_{free}$ 和 $Δ R$ 则基于20个X射线模型计算。

2.2 新精修流程在一组已存档原子模型中的应用

为了评估这一新型量子力学精修方法的性能,相关研究对41个低分辨率冷冻电镜原子模型、20个低分辨率X射线原子模型以及10个超高分辨率X射线原子模型进行了精修,这些模型均只包含蛋白质。在所选取的61个低分辨率原子模型中,每一个都具有对应的高分辨率同源结构,后者被用作比较时的真实参考。

精修过程中使用了三组不同约束:一组是来自AIMNet2的量子力学约束,即AQuaRef精修;一组是标准约束;另一组则是在标准约束基础上,进一步加入维持二级结构的氢键与相关角度约束、主链 $ϕ / ψ$ 角约束即Ramachandran图约束,以及侧链 $χ$ 角约束即rotamer约束。总体来看,经过量子精修后的低分辨率原子模型,在几何质量上系统性优于采用标准约束得到的模型。这一点可以从MolProbity评分、Ramachandran Z评分、CaBLAM不利构象比例以及氢键参数的偏度-峰度图中看出。同时,这些量子精修后的模型相对于初始坐标通常表现出更大的偏移。

在与实验数据的拟合方面,这些模型与实验结果保持了非常相近的水平。对于X射线原子模型而言,量子精修还表现出略低的数据过拟合倾向,这可以从更小的 $R_{work} - R_{free}$ 差值以及相近的 $R_{free}$ 中得到体现。由于冷冻电镜领域并不存在像晶体学中 $R_{free}$ 那样高效的过拟合控制指标,因此实验图与模型计算掩膜图之间略低的相关系数CCmask、基本相同的EMRinger评分,再结合显著改善的原子模型几何质量,很可能说明过拟合程度有所降低。

在标准约束中加入二级结构约束、Ramachandran图约束和侧链rotamer约束后,模型几何质量如预期得到改善,但AQuaRef生成的原子模型几何质量依然更好。除少数例外,采用量子约束精修得到的原子模型,相较于仅使用标准约束或加入额外约束得到的结果,在整体上都更接近对应的高分辨率同源结构。在一些最为显著的案例中,利用AQuaRef约束获得的局部结构与高分辨率同源结构高度一致,而与使用标准约束得到的结果相比,局部差异最多可达到2埃。

图4｜低分辨率精修模型与高分辨率同源结构的比较。 a-c分别展示PDB编号5YI5、8R1G和6XMX的局部放大图,其中标准约束精修得到的模型为蓝色,AQuaRef约束精修得到的模型为橙色,对应的高分辨率同源模型为绿色,并叠加显示其对应的 $2 m F_{o} - D F_{c}$ 傅里叶图,等值线设为 $2 σ$ 。

2.3 与其他当前先进方法的比较

为了进一步评估AQuaRef相对于其他主要精修方法和软件的表现,相关研究选取部分低分辨率X射线模型进行了比较测试。比较对象包括以AMBER力场作为几何约束来源的方法、结合强大采样策略的Rosetta全原子力场方法,以及REFMAC5中实现的标准精修流程。对于冷冻电镜,可选的精修替代方案相对较少,其中Servalcat是目前最常用的方法之一,因此也被纳入了此次分析。

对于X射线模型,AQuaRef在整体 $R_{free}$ 数值上略优,同时表现出明显更低的数据过拟合程度,这一点可以从更小的 $R_{free} - R_{work}$ 差值中看出。对于冷冻电镜模型,Servalcat在CCmask指标上表现更好,而两者在EMRinger评分上则基本相同。在Rama-Z评分方面,AQuaRef与Rosetta表现相近,在大多数情况下都得到了非常理想的结果,而REFMAC5和Servalcat的得分最差,AMBER处于中间水平。在MolProbity评分和CaBLAM异常值方面,AQuaRef和Rosetta同样表现接近,并且显著优于REFMAC5和Servalcat。若以与高分辨率参考模型的接近程度来衡量,则Rosetta精修得到的模型最接近参考结构,AQuaRef位列其后。这很可能与Rosetta采用了非梯度优化技术有关,例如采样和局部模型重新打包,这些方法相比其他程序中主要依赖的梯度驱动最小化,具有更大的收敛半径。最后,在氢键参数分布方面,AQuaRef和Rosetta都能够生成符合预期分布的模型,AMBER次之,而REFMAC5和Servalcat在这方面基本未能得到符合该分布的结果,其中Servalcat表现最差。

图5｜41个低分辨率冷冻电镜模型与20个低分辨率X射线模型的精修结果汇总。 冷冻电镜模型比较了AQuaRef(AQ)与Servalcat(SE),X射线模型比较了AQuaRef、REFMAC5(RE)、AMBER(AM)和Rosetta(RO)。a-e分别给出 $R_{free}$ 、 $R_{free} - R_{work}$ 、CCmask、EMRinger评分和Rama-Z的分布。f-h展示所有精修模型的MolProbity评分、CaBLAM异常值以及相对于参考模型的均方根偏差的平均值,灰色带表示标准差。i为氢键参数的偏度-峰度图,参数包括氢(H)…受体(A)距离和供体-H…A角,展示了采用REFMAC5、AMBER、Rosetta和Servalcat进行精修的结果。

2.4 案例研究:人DJ-1及其细菌同源蛋白YajL中的短氢键

短氢键在蛋白质中具有关键功能意义,而准确判定参与其中残基的质子化状态尤为重要。然而,即使在接近1Å的分辨率下,实验上精确定位质子的位置仍然十分困难。Lin等人对人DJ-1及其细菌同源蛋白YajL的高分辨率X射线晶体结构进行了分析,以判定跨二聚体氢键中羧酸残基的质子化状态。该方法结合了键长分析和差值图峰的定性解释,前者利用 $C = O$ 和 $C - O H$ 键长之间的差异,后者则试图寻找可能对应质子的电子密度证据。不过,这种分析会受到坐标精修中立体化学约束的影响,从而对键长造成偏置。例如,对于E/D残基,COOH基团的键长约束取决于是否显式建模了氢原子。为了尽量减小这一偏差,Lin等人在SHELXL中对感兴趣残基进行了最后几轮不加约束的共轭梯度最小二乘精修。相比之下,基于量子力学的AQuaRef精修可以完全避免这类偏置。

图6｜野生型DJ-1中的键长分析(PDB编号:5SY6,1.15Å)。 图中分析了Oε2(E15)与Oδ2(D24)之间氢键相关部分的键长。a为从PDB下载模型中测得的键长,b为所有精修所使用的初始几何构型(H仅在AQuaRef精修中存在),c为Phenix中的理想规则库数值;对于Asp和Glu残基,-COOH或-COO基团的几何构型相同。d为使用phenix.refine进行的不加约束精修,e为使用phenix.refine进行的加约束精修,f为AQuaRef精修结果。括号中的距离数值对应使用截断至2Å分辨率数据进行精修的结果。图中仅在氢原子被显式建模时才显示H原子,即仅当其出现在PDB模型文件中时显示。

在DJ-1的分析中,AQuaRef精修从一个初始状态出发:所有E15/D24的CO键长都设置为未质子化状态,并在Oε2(E15)与Oδ2(D24)之间对称放置一个质子。精修后得到的质子位置和键几何结果,与Lin等人的结论以及使用phenix.refine进行不加约束精修所得结果一致。相反,在phenix.refine中采用常规约束精修时,得到的键几何更接近规则库中假定两个COO基团都不带质子的标准值,这清楚表明了约束偏置的影响。

图7｜沿氢键方向的能量曲线。 图中给出AIMNet2能量相对于各自最低值的变化,作为氢原子在相应氧原子之间位置变化的函数。a为DJ-1中Oδ2(D24)与Oε2(E15)之间,b为YajL中Oδ2(D23)与Oε2(E14)之间,c为YajL中Oδ2(D23)与Oγ1(T16)之间。实线和虚线分别表示YajL模型中该键的两个实例。

为了检验AIMNet2约束在保持正确几何结构方面的稳健性,研究又使用被截断至2Å分辨率的实验数据进行了同样的精修。这样的数据截断会移除能够分辨键长和氢原子位置的原子级细节。结果显示,AQuaRef得到的结果与使用原始1.15Å原子分辨率数据时几乎一致,而采用约束的phenix.refine则进一步将氧-碳距离推向未质子化状态下的理想化数值。从一个理想化对称构型出发,理论上精修可以将质子放在E15或D24任意一侧。为了说明为何最终质子稳定在D24的Oδ2上,研究考虑了两条独立证据。第一,沿着Oδ2-Oε2键向对氢原子位置进行采样并计算AIMNet2能量曲线后发现,体系对D24质子化存在轻微偏好。第二,虽然该结构的分辨率和R因子不足以在差值图中对质子作出确定性识别,但沿Oε2-Oδ2轴线的差值图数值在Oδ2附近、也就是潜在氢原子位置附近,显示出较高的正值。结合AIMNet2给出的能量偏好,这很可能共同引导了精修过程,使氢原子向D24一侧移动。

图8｜沿O-H向量的差值密度图。 图中给出所分析氢键沿O-H向量方向上的差值密度图平均值,分别以绝对单位 $e / Å^{3}$ 和标准差形式表示。a对应DJ-1,b和c对应大肠杆菌YajL模型。所有峰中心均对齐至原点。属于A链和B链的原子分别以蓝色和橙色表示。

细菌DJ-1同源蛋白YajL的结构在不对称单元中包含两个分子拷贝,因此存在两组E14/D23相互作用。与DJ-1类似,YajL的不加约束精修结果与Lin等人的分析一致。而在使用常规约束进行精修时,两组E14/D23相互作用的键长都出现了明显偏置。AQuaRef精修所得结果则与Lin等人的结论以及不加约束的phenix.refine结果一致,表明质子是在D23和E14之间共享的,而不是完全局限在某一个残基上。与DJ-1不同的是,YajL中的质子似乎并不完全依附于某一个氧原子,而是在Oε2和Oδ2之间共享,这与低势垒氢键的特征一致。AIMNet2在Oε2和Oδ2之间给出的能量曲线也支持这一解释,其能量景观相对平坦。这说明,氢原子的位置可以主要由实验数据来决定,同时仍然处于AIMNet2势阱的平坦区域之内。实际上,在两组E14/D23相互作用中,差值图都在接近精修模型中氢原子位置的地方出现了高于3个标准差、并且显著高于平均溶剂密度 $0.25 e / Å^{3}$ 的峰值。

对于D23与T16之间的另一条氢键的分析,也进一步支持了C-Oδ2键长拉长是由 $O ε 2 \dots H \dots O δ 2$ 低势垒氢键引起的这一解释。AQuaRef精修结果、AIMNet2能量曲线,以及沿D23的Oδ2与T16的Oγ1方向得到的差值图密度数值,三者都共同表明T16发生了质子化,并排除了D23在“anti”构型下被质子化的可能性。

图9｜大肠杆菌YajL中的键长分析(PDB编号:5SY4)。 图中分析了跨越A链(蓝色)与B链(橙色)的Oε2(E14)与Oδ2(D23)之间氢键相关部分的键长。a为从PDB下载模型中测得的键长,b为使用phenix.refine进行的不加约束精修,c为使用phenix.refine进行的加约束精修,d为AQuaRef精修结果。图中仅在氢原子被显式建模时才显示H原子,即仅当其出现在PDB模型文件中时显示。

3 讨论

相关研究提出了AQuaRef,这是一种针对整条蛋白质结构开展量子精修的新方法,其实现依赖于AIMNet2提供的机器学习加速量子力学计算。借助这一框架,首次能够在真实蛋白质结构的完整原子模型上,使用来源于量子力学计算的立体化学约束进行精修。针对61个低分辨率X射线和冷冻电镜原子模型的测试表明,采用量子力学约束后,模型在几何验证指标上表现出系统性改善,同时保持了与实验数据相近的拟合程度,并且降低了过拟合。由于这些低分辨率模型都具有高分辨率同源原子模型作为参照,而后者通常更接近真实结构,因此可以进一步检验这类改进是否意味着精修结果更加接近真实构象。除极少数情况外,使用AQuaRef约束精修得到的原子模型都系统性地更接近高分辨率参考结构。在仅有的四个例外中,偏差也非常有限,按叠合后的扭转角空间均方根偏差衡量,差异不足1°。这说明,基于量子力学的精修不仅能够改善常规验证指标,还能够比标准约束精修得到更真实的结构表示。

对于10个超高分辨率原子模型的精修,结果如预期所示,原子坐标本身并没有发生显著改变,但10个模型的R因子都得到了改善。与标准约束精修相比,最显著的差异出现在氢原子的位置上,尤其是那些具有旋转自由度的氢原子。在精修过程中,部分氢原子发生了重新取向,既更好地拟合了实验数据,又形成了更有利的氢键。另一个明显区别在于,AQuaRef精修时,键长和键角相对于理想规则库数值的均方根偏差有所增加,这一现象与改进后的氢原子位置一起,很可能共同促成了R因子的提升。

图10｜高分辨率精修模型中的氢键。 a-d展示采用标准AQuaRef约束精修得到的模型(橙色),并叠加其对应的 $2 m F_{o} - D F_{c}$ 和 $m F_{o} - D F_{c}$ 傅里叶图,等值线分别设为 $5 σ$ (蓝色)和 $\pm 2 σ$ (绿色、红色),对应结构为PDB 4O8H。图中重点展示那些具有旋转自由度、并在AQuaRef约束精修过程中重新取向的氢原子,这些氢原子在满足残差图特征的同时,也参与形成了氢键。

进一步与多种主流先进软件和精修方法比较后发现,在晶体结构精修中,只有Rosetta在精修后原子模型几何质量方面接近AQuaRef。即便如此,AQuaRef仍然给出了略有改善的 $R_{free}$ ,以及显著更优的 $R_{free} - R_{work}$ 差值,表明数据过拟合更少。与此同时,还需要注意Rosetta精修目前仅适用于基于X射线数据的晶体结构,而且其精修时间最高可比AQuaRef慢一个数量级。对于冷冻电镜模型,尽管Servalcat在CCmask上优于AQuaRef,但这很可能意味着Servalcat通过牺牲模型几何质量换取了更高的CCmask,也就是说存在更强的图谱过拟合倾向。

关于人DJ-1及其细菌同源蛋白YajL中短氢键的案例研究,以及参与这些氢键的羧酸质子化状态分析,进一步说明AQuaRef能够在不同情形下自动确定与实验证据一致的质子位置。整个过程是全自动完成的,不会受到约束形式选择或初始几何构型的偏置影响。此外,AIMNet2的能量曲线还能为氢键特征和质子化状态提供额外信息,从而为特定假设提供支持。

这一方法已经被实现到量子精修软件Q|R之中。该软件建立在CCTBX库之上,并可选调用Phenix中的工具。Q|R目前能够在Phenix环境中使用,这使得相关方法可以更方便地被更广泛的结构生物学研究者采用。

目前,AQuaRef的训练对象仍局限于常见氨基酸残基,因此这一方法暂时只能应用于仅由蛋白质组成的结构。另一个主要限制在于,Q|R当前还不能处理静态无序,也就是替代构象。消除这两项限制,将是后续工作的重点。