Chem. Commun. 2026 | 肽–蛋白质对接:从基于物理的模型到生成式智能
今天介绍的这项工作来自 Chemical Communications 。该文章围绕肽–蛋白相互作用在生命科学与药物设计中的重要意义展开,指出这类相互作用广泛参与细胞信号传导、免疫调控等关键过程,同时也是当前靶向蛋白–蛋白相互作用药物开发的重要切入点。然而,实验解析复合物结构成本高、难度大,使得计算方法在解析结合模式和指导分子设计中具有不可替代的价值。在方法演进方面,从传统对接技术出发,介绍了基于模板、局部优化以及全局搜索的经典框架。这类方法通常依赖构象采样与能量打分,但在处理高度柔性的肽分子、诱导契合效应以及复杂化学修饰时存在明显局限。随后重点阐述了近年来深度学习推动下的范式转变,包括结合位点预测、基于AlphaFold的共折叠策略,以及以扩散模型为代表的生成式方法,这些技术显著提升了对接精度与适用范围。进一步地,该文章分析了当前方法仍面临的核心挑战,例如训练数据有限、对长肽或无序肽表现不足、置信度评估不稳定等问题。同时指出,未来的发展方向在于融合更丰富的生物物理约束、构建高质量数据集,并利用大规模生成模型实现更加稳健且可用于设计的预测体系。整体来看,该综述不仅梳理了肽–蛋白对接技术从传统物理建模到人工智能驱动的演进路径,也为后续研究提供了清晰的发展框架与关键问题指引。

获取详情及资源:
0 摘要
肽–蛋白质相互作用在细胞信号传导与调控过程中具有关键作用,同时也是一类重要的治疗手段。然而,通过实验方法解析肽–蛋白复合物结构通常成本高昂且具有较大挑战性,因此,计算方法在刻画结合模式和指导分子设计方面具有重要意义。 传统方法通常结合基于模板、局部或全局对接的构象搜索算法,并配合基于物理或经验的打分函数,但在面对高度柔性的肽分子、浅表界面的诱导契合以及非标准化学结构时,往往表现不足。近年来,该领域正从传统的“搜索+打分”流程逐步转向基于深度学习的建模范式。当前方法大致可以分为三类:一类通过预测蛋白表面可能的肽结合区域来指导或筛选对接模型;一类基于AlphaFold等通用结构预测框架,实现肽–蛋白的协同折叠与结构优化;另一类则利用深度生成模型,在给定蛋白结构的条件下直接采样肽的构象。总体来看,这些新方法显著提升了肽–蛋白对接的精度与适用范围,但仍存在一些共性挑战,例如训练数据有限,以及在处理长链、无序或化学修饰肽时性能不足。未来的发展方向包括引入更丰富的生物物理约束、构建更高质量的数据集,以及发展大规模生成模型,从而推动肽对接方法向更加稳健和可用于实际设计的方向发展。
1 引言
蛋白–蛋白相互作用调控几乎所有细胞过程,包括信号传导、免疫识别和代谢调控。这些相互作用网络一旦失调,往往会导致多种疾病,如癌症、代谢紊乱和感染性疾病。因此,靶向蛋白–蛋白相互作用已成为现代药物研发中的重要策略。然而,传统小分子药物在调控这类相互作用时面临困难,因为许多蛋白–蛋白界面通常较大、较平坦,且缺乏明确的结合口袋。相比之下,肽由于其尺寸适中且结构具有柔性,能够模拟天然相互作用基序,并以较高特异性结合于扩展的蛋白表面,因此成为一种有前景的替代方案。许多生物肽在体内作为信号分子或调控元件,通过瞬时的肽–蛋白相互作用参与关键细胞通路,因此理解其结构与作用机制对于解析细胞调控以及开发肽类药物具有重要意义。
近年来,肽类药物逐渐成为靶向蛋白界面的重要药物形式,已有约百种肽药获得批准或进入临床阶段。相较于传统小分子,肽能够更精准地识别蛋白复合物界面,并通过模块化设计优化结合亲和力与选择性,同时在合成方面也较为便利。
此外,肽还被应用于“掩蔽肽”策略中,即通过短肽在空间上阻挡治疗分子的功能位点,使其在正常组织中保持失活状态,待到达目标细胞后再被移除,从而实现靶向激活。例如某些肿瘤激活的T细胞连接系统利用肽掩蔽CD3结合位点,只有在肿瘤微环境中被蛋白酶激活后才发挥作用。
为了开发肽类药物或研究肽–蛋白相互作用,获取复合物的三维结构至关重要。传统实验方法如X射线晶体学、核磁共振和冷冻电镜虽然被广泛应用,但通常资源消耗高,并且在处理瞬时复合物或膜蛋白时存在困难,同时也难以覆盖由肽长度变化和非标准氨基酸带来的组合多样性。因此,计算方法能够通过提供原子级结构模型,有效补充实验手段。
在肽–蛋白相互作用中,肽通常由2至50个氨基酸组成,并作为配体结合到较大的蛋白上。该问题可以转化为一般蛋白–蛋白对接问题,将肽视为配体、蛋白视为受体。传统蛋白对接领域已发展出较为成熟的方法基础,例如基于快速傅里叶变换的算法以及基于几何哈希的形状匹配方法,这些方法在部分情况下能够成功预测肽–蛋白相互作用。然而,其主要局限在于通常将配体视为刚性分子以降低计算复杂度,这一假设并不适用于高度柔性的肽。因此,后续方法通过结合刚体放置、构象采样与精细化优化,将肽作为柔性分子进行处理,以提升预测能力。
近年来,随着AlphaFold等深度学习方法的出现,结构预测领域发生了重大变革。这类方法在单体蛋白结构预测中表现出极高精度,并迅速被扩展到蛋白复合物预测。然而,直接将这些方法应用于肽–蛋白对接仍存在不足。肽具有高度柔性和较小尺寸,能够在结合过程中发生折叠,并形成复杂的氢键与静电相互作用网络,同时许多肽在溶液中呈无序状态,这进一步增加了构象采样的难度。在这一背景下,该文系统梳理了肽–蛋白对接方法从早期基于蛋白–蛋白对接的技术,到当前前沿深度学习框架的发展过程,并对未来实现高精度、高效率且具有生物学意义的预测方向进行了展望。
表1|该文讨论的肽–蛋白对接工具


2 传统对接方法
传统的肽–蛋白对接方法源于几何与能量驱动的建模框架,这些框架最初是为蛋白–蛋白相互作用设计的,随后被调整以适应肽分子更高的柔性和更小的尺寸。在实际应用中,这类方法通常根据其适用范围分为三类:基于模板的方法、局部精细化方法以及全局对接方法。这三类方法的主要区别在于对先验信息的依赖程度。基于模板的方法依赖于已解析的相似蛋白–肽复合物结构,并将其作为建模的骨架;局部精细化方法假设已知部分目标复合物信息,例如预定义的结合位点或已知接触残基,从而限制搜索空间;相比之下,全局对接方法则在没有任何结合位点先验信息的情况下,在整个受体表面进行肽的位置与构象采样。
基于模板和基序的方法,如GalaxyPepDock和PatchMAN,通过将已知结构中的相互作用模式或结合在蛋白表面的肽主链构象迁移到新的目标体系中实现预测。这类方法通常通过识别序列高度相似的蛋白,或利用大型结构数据库在受体表面匹配局部形状来完成建模。当数据库中存在结构相似的蛋白–肽复合物时,GalaxyPepDock能够达到较高的预测精度。然而,这类方法的主要局限在于其对合适模板的强依赖性,一旦缺乏相似结构参考,其性能将显著下降。
因此,当需要预测全新的结合模式或面对缺乏结构相似参考的蛋白时,这类方法通常会失效。相比之下,PatchMAN不依赖完整的复合物模板,而是从已知蛋白中识别与受体表面互补的小结构片段。该方法能够处理包含翻译后修饰的非标准氨基酸,但其主要局限在于初始搜索依赖刚性采样。此外,当受体存在“封闭”口袋并与肽主链产生严重空间冲突时,该方法在肽的定位与优化方面也可能表现不佳。
当结合位点已知时,局部精细化方法通常是标准选择。诸如Rosetta FlexPepDock、HADDOCK肽对接以及改造的小分子对接程序AutoDock Vina等方法,都是通过将构象采样限制在特定区域内来进行建模。Rosetta FlexPepDock允许肽以及受体侧链具有完全柔性,从而能够生成高精度模型,但其主要缺点是无法进行完全盲对接,并且依赖准确的初始构象,同时受体主链通常保持刚性。HADDOCK在具备生化或生物物理实验数据时具有明显优势,因为这些数据可作为约束条件使用,但其性能高度依赖实验信息的可获得性。AutoDock Vina具有较高计算效率并采用经验打分函数,但难以处理具有大量可旋转键的分子,即较长的肽。
全局或“盲”对接则面临不同挑战。HPEPDOCK、PIPER–FlexPepDock和CABS-dock等方法需要在整个受体表面搜索肽的结合位点。为了应对巨大的计算开销,这些方法通常采用粗粒度模型或分阶段搜索策略。MDockPeP通过三步完成对接:首先生成多种肽主链构象,然后在整个受体表面独立对每种构象进行对接,最后利用针对蛋白–肽相互作用设计的打分函数进行排序。HPEPDOCK通过预生成多种肽构象来表示柔性,从而避免对接过程中高成本的采样,但由于这些构象未考虑受体环境且被视为刚性,当结合过程涉及较大结构变化或面对长肽时,其精度会下降。PIPER–FlexPepDock结合了全局对接与高分辨率精细化,能够同时处理肽柔性和受体侧链调整,但计算成本较高,并且初始阶段的受体刚性假设限制了其在需要主链重排情形下的表现。CABS-dock采用粗粒度模型实现完全盲对接,使配体和受体均具有较高柔性,但简化表示可能降低精度,尤其是在需要精细原子接触的相互作用中。MDockPeP是一种高效的从头对接方法,仅依赖受体结构和肽序列即可完成全局对接,通过结合模板建模、刚体采样和局部精细化实现较高效率,但由于受体被视为刚性,其在长肽体系中的精度下降。IDP-LZerD则通过对无序肽进行片段对接并重建完整链来处理长肽问题,虽然提出了新思路,但整体精度仍有限。
这些经典方法通常遵循类似的计算流程。首先生成大量肽构象候选集合,其中模板方法利用已有结构推导主链构象,而局部与全局方法则通过刚体采样、片段组装或粗粒度模型在受体表面生成候选姿态。随后,通过评估形状互补性和理化性质等粗粒度特征的打分函数筛选候选结构,并对筛选结果进行全原子水平的高分辨率精细化,以调整肽主链并在一定程度上允许受体结构变化。
经典对接方法能否成功预测接近天然构象,很大程度取决于打分与精细化策略的有效性。打分函数形式多样,包括基于统计势能的方法、混合能量函数以及粗粒度相互作用项;另一类则是基于物理的能量函数,如Rosetta和AutoDock系列方法,通过预计算的亲和力网格评估相互作用。这些方法都需要在保持计算效率的同时,从大量候选结构中识别出接近天然的构象。为弥补快速打分的不足,精细化阶段通常采用高分辨率全原子能量函数,例如通过蒙特卡罗采样与梯度优化进行结构优化,或从粗粒度模型过渡到全原子重建。早期蛋白–蛋白对接框架提出的几何匹配与能量筛选思想,也被后续肽对接方法继承并扩展到柔性配体体系。
然而,经典几何对接方法存在三方面主要局限。首先,随着肽长度和柔性的增加,构象搜索空间呈组合爆炸增长,使得对长肽难以进行充分采样;其次,受体主链通常被视为刚性,无法描述环区运动或有序–无序转变,导致结果高度依赖输入构象;再次,对结合位点先验信息的依赖使方法较为脆弱,一旦信息不准确或缺失,模型排序将不可靠。这些问题本质上源于静态能量景观的假设,而深度学习方法正试图突破这一限制。
在模型评估方面,通常采用蛋白对接领域的标准指标体系,即CAPRI评估标准。该体系主要包括三项指标:配体的均方根偏差
3 肽–蛋白对接方法的近期发展
肽–蛋白对接方法自早期提出以来已经取得了显著进展,其方法发展的演化过程如图1所示。大约从2012年开始,深度学习逐步被引入该问题的关键环节,并在2020年前后随着AlphaFold的出现而迅速发展。在蛋白–肽对接领域,已有两类辅助方法得到广泛研究,用于补充复合物结构建模:一类是预测受体蛋白上肽结合位点的方法,另一类是对对接模型进行排序的方法。自2022年以来,几乎所有新提出的方法都融入了深度学习组件。近期的发展趋势则表现为引入扩散模型这一生成式深度学习方法。

图1|2011年至2025年肽对接方法的发展时间线,按照概念类别进行划分。 该文提及的方法被归为五类。早期研究主要由传统的“搜索+打分”对接方法主导(绿色)。自2021年起,基于深度学习的框架逐渐兴起,包括基于AlphaFold的方法(黄色)和基于扩散模型的方法(青色)。与此同时,两类辅助方法也在并行发展,即结合位点预测方法(红色)和学习驱动的构象重排序策略(浅绿色)。
3.1 肽结合位点预测与对接构象重排序方法
近年来,针对肽结合位点预测的方法取得了显著进展。这类方法旨在预测肽在受体蛋白表面可能的结合位置,可以在残基层面或表面片段层面进行定位。预测得到的结合位点信息可用于后续对接、协同折叠,或在生成模型中作为掩码、空间约束或重排序信号使用。这类早期方法通常依赖人工设计的理化、几何或统计特征,而非学习得到的表示。
例如,PepSite和PeptiMap通过检测具有统计显著性的残基–残基接触模式或能量上有利的片段放置来识别蛋白表面的肽结合区域;PepBind则基于序列特征进行预测,利用残基组成和进化信息,并通过支持向量机模型进行整合,同时结合BioLiP数据库中结构相似蛋白的结合位点注释进行推断。
自2020年前后开始,基于深度学习的方法逐渐出现。PepNN-Struct/Seq、Pep-CNN和PepCA利用受体的几何结构、序列上下文以及局部理化特征来识别潜在的肽结合热点。其中,PepNN-Struct将受体表示为基于结构构建的残基图,并通过注意力机制预测结合残基;Pep-CNN和PepCA则主要基于序列与局部特征构建残基层表示,前者采用卷积神经网络整合进化与结构信息,后者利用蛋白语言模型嵌入结合协同注意力机制进行预测。
此外,还有仅基于序列信息预测结合残基的方法。例如,CAMP通过整合肽和蛋白的序列特征,不仅判断是否发生相互作用,还能识别肽序列中的结合位点;TPepPro基于Transformer架构,将蛋白局部序列表示与由接触图得到的全局结构信息结合,用于预测蛋白–肽对的相互作用概率,而非直接输出结合位点;PepBCL基于BERT语言模型,仅使用蛋白和肽的序列信息,通过对比学习在残基层面预测蛋白侧的结合残基。
在大多数计算流程中,结合位点预测并非最终目标,而是作为模块化组件存在,用于将原本完全盲目的全局搜索转化为受约束的局部探索,同时在实验数据或模板信息不完整或存在噪声时,有助于稳定构象生成与排序过程。
对接构象重排序是肽对接中的另一关键环节。在生成初始的肽构象集合后,如何从大量候选模型中筛选出值得进一步优化的结构成为核心问题。早期方法通常通过判断预测构象与指定结合位点的重叠程度进行排序,例如根据预测或约束的结合界面与对接模型中界面的重合程度对候选结构进行重排序。其他方法则利用从已知蛋白–肽复合物中提取的统计势能进行评估。此外,基于共识或聚类的策略也被广泛应用,其基本假设是接近天然构象的结合模式会被重复采样,因此优先选择位于高密度聚类中的构象,这一策略在CABS-dock、pepATTRACT和PIPER–FlexPepDock等方法中得到应用。
近年来,重排序方法逐渐转向基于深度学习的框架。InterPepRank将每个蛋白–肽候选结构表示为残基层面的图,并以物理接触作为边,通过图卷积网络预测模型质量,从而显著提升后续精细化阶段的初始结构选择质量。GraphPep则采用更加以相互作用为中心的表示方式,将节点定义为蛋白–肽接触关系,而非单个残基,并利用结合传统对接结果与AlphaFold生成结构的混合数据进行训练,从而区分接近天然构象与错误构象。在这些方法中,监督信号通常来自连续或离散化的质量指标,例如DockQ评分或CAPRI精度分类,并通过回归或排序损失函数进行优化。
3.2 基于AlphaFold的肽–蛋白对接方法
在AlphaFold2(AF2)提出之后,Tsaban等人通过修改输入形式扩展了AF2的能力,使这一原本用于蛋白单体结构预测的框架能够用于建模蛋白–肽复合物。具体做法是通过一个多甘氨酸连接子将受体序列与肽序列连接起来。研究表明,在无需额外训练的情况下,AF2即可用于预测蛋白–肽复合物结构。类似地,Motmaen等人将AF2扩展用于同时预测蛋白结构以及主要组织相容性复合体(MHC)与肽的结合特异性,通过将MHC序列与肽序列连接作为输入。然而,在使用AF2进行肽对接时需要谨慎,因为其对肽的预测结果可能受到肽二级结构偏好的影响。
在AF2之后不久,AlphaFold-Multimer(AF M)被提出用于蛋白复合物建模。尽管AFM在一般蛋白复合物预测中表现出较高精度,但在蛋白–肽复合物建模方面,其精度仍低于单链蛋白和常规蛋白复合物。研究表明,通过增加循环次数以及生成更多候选结构,可以在一定程度上提升AFM的建模性能。Tsaban等人以及Johansson-Åkhe等人的方法保持了AFM原有架构,避免了额外训练成本,并具有较好的通用性,但其性能仍受限于AFM本身在肽对接任务上的能力。
针对特定生物体系的改进方法也被提出。例如,MHC-Fine通过使用更大规模的神经网络对AFM进行进一步训练,并在训练过程中向模板中加入蛋白–肽相互作用信息,从而提升MHC–肽复合物结构预测的精度。Phospho-Tune则专门针对磷酸化肽–蛋白相互作用进行优化,在训练过程中引入磷酸化位点等信息,以改善结构建模效果。
这些方法通常面向特定应用场景,其局限性在于相关数据集规模和多样性不足。目前已知的肽–蛋白复合物结构数量较少,这限制了对模型稳健性的全面评估。因此,需要更加广泛且多样化的基准数据来验证针对特定体系微调模型的稳定性与可靠性,而这一问题实际上也是当前所有肽–蛋白对接方法面临的共同挑战。
3.3 DistPepFold:基于特权知识蒸馏的肽–蛋白对接改进方法
DistPepFold通过引入特权知识蒸馏方法提升蛋白–肽对接性能。图2a展示了该算法的整体流程。DistPepFold采用教师–学生框架,其中包含教师模型和学生模型两个部分。教师模型首先在特权知识的辅助下进行训练,这里的特权知识指的是受体与肽之间相互作用的残基对集合。借助这些关键的相互作用信息,教师模型能够达到较高的建模精度。教师–学生框架的核心思想是在训练过程中将特权知识间接传递给学生模型。在蒸馏过程中,学生模型不仅需要预测目标复合物的正确结构,还需要模仿教师模型的行为,更具体地说是复现教师模型的中间输出。在实际推理阶段,仅使用学生模型进行结构预测。与AlphaFold-Multimer及其他方法相比,DistPepFold在多个评价指标上表现更优,在CAPRI对接评估标准下能够预测出更多高质量结构。该方法已开源发布于GitHub。

图2|DistPepFold、RAPiDock和DiffPepDock的工作流程示意图。 该图展示了三种方法的整体流程,具体说明见正文。(a) DistPepFold;(b) RAPiDock;(c) DiffPepDock。
图3展示了四个由DistPepFold预测的结构示例,并与AFM结果进行对比。图中模型均由学生模型生成,因为教师模型依赖真实的残基接触信息,而这些信息在实际预测中不可获得。由于预测的受体结构与PDB数据库中的参考结构差异较小,因此未展示受体结构。在这些示例中,使用了两个评价指标:界面均方根偏差
在第一个示例(图3a)中,AFM未能识别肽的结合位点,导致肽从受体结构中脱离;而DistPepFold成功预测出接近天然的结合构象,使

图3|蛋白–肽复合物结构预测示例。 图中展示了AlphaFold-Multimer预测结果(青色)和DistPepFold预测结果(红色),并与天然肽构象(深蓝色)进行对比。受体结构以灰色卡通形式表示。由于预测的受体结构与PDB数据库中的参考结构差异较小,因此未展示受体预测结果。(a) 前胶原特异性分子伴侣与胶原模型肽15-R8的复合物(PDB ID: 4AU3),该复合物包含两个长度为392个残基的受体以及三个长度为20个残基的肽。(b) SHC SH2结构域与酪氨酸磷酸化肽的复合物(PDB ID: 1TCE),包含一个107个残基的受体和一个20个残基的肽。(c) 适配蛋白复合物AP-2与来源于intersectin-1的肽(PDB ID: 3HS8),包含一个273个残基的受体和一个12个残基的肽。(d) ADP-核糖基化因子结合蛋白GGA1与p56的15肽片段复合物(PDB ID: 1OM9),包含一个154个残基的受体和一个15个残基的肽。对于每种方法,均报告了界面均方根偏差
3.4 基于扩散模型的生成式肽对接方法
近年来,肽对接方法开始引入扩散模型,借鉴了在计算机视觉和结构生物学中取得突破的深度生成模型策略。扩散模型已成为新一代蛋白质以及DNA/RNA结构预测方法的核心生成引擎,其中代表性方法包括AlphaFold3,以及RoseTTAFold All-Atom、HelixFold-Multimer、Boltz-1、Chai-1和ProteniX等。
扩散模型同样被引入蛋白–肽对接中,以应对该问题中固有的物理复杂性和数据稀缺性。在RAPiDock中,并不是对单个原子进行逐一移动(这种方式容易导致结构失真),而是采用逐步扩散过程,仅通过物理上合理的自由度来操作肽,包括整体旋转、平移以及扭转角。为了在保证分辨率的同时提高计算效率,该模型使用图结构表示肽,其中包含两类节点:用于快速全局定位的粗粒度残基节点,以及用于精确建模侧链的细粒度原子节点。此外,该方法利用Clebsch–Gordan张量积来严格保证SE(3)等变性,从而使模型天然满足旋转对称性,在保持原子级精度的同时实现高通量筛选。
另一种方法DiffPepDock则针对肽–蛋白复合物结构数据不足的问题,采用两阶段训练策略。首先,利用从蛋白–蛋白复合物中提取的蛋白–片段数据进行预训练,这些片段可以模拟蛋白–肽相互作用,并且数量约为真实肽–蛋白复合物的四倍。随后,在真实的肽–蛋白复合物数据上进行微调,从而提升模型在实际任务中的表现。
总体来看,基于扩散模型的专用对接方法与通用结构预测模型各具优势与局限。RAPiDock和DiffPepDock等专用方法在采样效率和对接精度方面表现突出,尤其适用于短到中等长度肽与相对刚性的受体体系,其基于物理约束的扩散过程能够减少结构畸变并提升构象生成质量。然而,当受体发生较大构象变化,或训练数据中缺乏相关结合模式时,其性能可能下降。相比之下,AlphaFold3、ProteniX、RoseTTAFold All-Atom、HelixFold-Multimer、Boltz系列以及Chai-1等通用模型具有更广泛的适用性,但并未针对肽对接进行专门优化。此外,这类模型高度依赖多序列比对和进化信息来推断链间接触,当肽较短或缺乏足够序列同源信息时,其性能会下降,并且在进化信号较弱时可能出现结合位点识别错误或构象排序不准确的问题。
最后,扩散模型还被用于从头设计能够结合目标口袋的肽。这类方法并非对已知肽进行对接,而是直接设计结合肽序列。例如,RFdiffusion与ProteinMPNN构成了一个典型流程,前者负责生成满足特定条件(如结合到受体口袋)的结构,后者则设计能够折叠为该结构的氨基酸序列。该范式正在快速扩展,例如ODesign、BoltzGen和BindCraft等方法进一步发展了这一思路。其中,ODesign和BoltzGen在统一的全原子生成模型中同时进行序列与结构的协同设计,实现多模态与灵活条件控制;BindCraft则结合基于AlphaFold的“幻觉生成”和梯度优化方法,对结合序列和界面进行迭代优化,更强调一次性生成功能性结合分子。尽管这些方法生成的复合物在结构上与对接结果相似,但其本质是通过生成式设计解决逆折叠问题,而非对既有序列进行随机采样。
4 挑战与未来发展方向
在过去几十年中,肽–蛋白对接方法取得了显著发展。早期方法主要基于刚体蛋白–蛋白对接框架,并通过引入粗粒度采样、片段组装以及局部精细化来适应肽的柔性。这些经典方法为实际应用奠定了基础,但其性能受限于可探索的构象空间规模以及启发式打分函数的精度。随着深度学习的引入,数据驱动的建模方式显著提升了结合位点识别与构象筛选能力。近年来,以扩散模型为代表的生成式方法进一步推动了该领域的发展,其通过学习肽–蛋白复合物构象的条件分布,取代传统的穷举搜索与打分策略,从而在建模精度上取得明显提升。例如,DiffPepDock将平均配体均方根偏差从传统方法的约11Å降低至约4.5Å,而RAPiDock在CAPRI标准下的前100个候选结构中,高质量预测的成功率超过50%,相比传统方法约20–30%的水平有显著提升。
尽管取得了重要进展,肽–蛋白对接方法的整体精度仍低于单链蛋白结构预测,这反映出若干关键方法学限制。首先,随着肽长度和柔性的增加,构象空间迅速膨胀,使得在合理计算时间内对长肽或大环肽进行充分采样变得困难。其次,基于深度学习的方法虽然提高了精度,但高度依赖已有结构数据中学习到的模式,对于训练数据中较少出现的长链、无序或化学修饰肽,其泛化能力较弱。此外,许多端到端模型将对接问题视为结构预测任务,而非明确的结合过程,这限制了其对多种结合模式或构象集合的刻画能力。因此,不同方法往往在特定假设下表现良好,但在超出适用范围时性能下降,这表明需要在采样效率、物理合理性与打分可靠性之间取得更好的平衡。另一个尚未解决的重要问题是置信度评估的可靠性。尽管许多方法提供置信评分或排序指标,但这些评分与真实对接精度之间往往缺乏良好校准,尤其是在面对化学多样性较高的肽或多种可能结合模式时。提升置信度评估的可解释性与校准性,对于将预测结果应用于实际决策具有关键意义。
展望未来,肽–蛋白对接方法有望通过引入更先进的深度学习技术持续取得渐进式改进。然而,实现根本性突破仍依赖于高质量数据集的构建,尤其是通过实验解析获得的肽–受体复合物结构及其能量信息,这需要领域内的协同努力。此外,扩展训练与评测数据集,使其更好覆盖长肽、环肽以及化学修饰肽,对于提升模型泛化能力至关重要。同时,将基于物理的能量模型与深度学习方法相结合,有望弥补数据不足带来的限制,并实现更加合理的泛化能力。总体而言,这些方向将推动肽–蛋白对接方法从当前的渐进改进走向更加稳健且具有广泛应用价值的预测体系。