NCB 2025 | 利用人工智能进展推动蛋白质设计
今天介绍的这篇Q&A来自Nature Chemical Biology。人工智能与机器学习正在深刻改变蛋白质结构预测与设计的研究范式。近年来,以AlphaFold等模型为代表的计算工具显著提升了蛋白质结构预测的准确性与可及性,并逐步将研究视角从静态结构拓展至蛋白质功能、相互作用以及从头设计等更复杂的问题。随着生成式模型和蛋白质语言模型的发展,计算方法已不再局限于“解释已有蛋白”,而是开始参与“设计全新蛋白”的全过程。该文以问答形式,邀请三位长期从事计算蛋白质科学研究的学者Bruno Correia, Peilong Lu (卢培龙)和Cecilia Clementi,围绕蛋白质建模、设计与人工智能方法的最新进展展开讨论。访谈内容系统梳理了当前机器学习工具在蛋白质复合物、膜蛋白及部分无序蛋白预测中的能力边界,并深入分析了结构预测之外,在动力学行为、功能性质和化学反应性建模方面仍然存在的核心挑战。该文章进一步探讨了生成式人工智能在蛋白质设计中的应用前景与现实瓶颈,强调高质量实验数据、多尺度动力学建模以及物理约束在未来方法发展中的关键作用。同时,受访者也从科研伦理与生物安全角度审视了人工智能在蛋白质设计中的潜在风险,并对该领域未来数年的重要研究方向与里程碑式突破提出了展望。整体而言,该本文为理解人工智能如何塑造下一代蛋白质设计方法提供了清晰而前沿的视角


获取详情及资源:
0 问答Q&A
基于机器学习的工具正在彻底改变科学家研究蛋白质结构的方式。在这篇访谈中,Nature Chemical Biology与Cecilia Clementi、Bruno Correia和陆培龙围绕蛋白质结构与性质预测计算工具的最新进展展开交流,讨论了这些方法如何被用于蛋白质设计,以及他们希望该领域未来能够实现的发展方向。Cecilia Clementi是德国柏林自由大学的爱因斯坦物理学教授。卢培龙是中国西湖大学的长聘副教授。Bruno Correia是瑞士洛桑联邦理工学院的副教授。
Q: 近年来,用于预测蛋白质结构与性质的新型计算工具深刻改变了化学生物学的多个研究方向。针对这一背景,访谈首先关注一个核心问题:在当前蛋白质建模领域中,哪些最新进展最令人振奋,以及这些研究者是否已经在各自的科研工作中开始使用新的相关工具?
Cecilia Clementi: 当前正处在一个令人振奋的阶段,机器学习正在推动多个科学领域取得显著进展。尤其令人关注的是,机器学习工具开始尝试解决大分子动力学与功能理解这一长期难题,研究视角正在从单一静态结构拓展到更复杂的动态行为。在其研究工作中,相关探索正建立在AlphaFold和BioEmu等工具的基础之上。
Bruno Correia: 过去几年中蛋白质建模工具取得了令人瞩目的突破。AlphaFold的出现对整个领域产生了深远影响,使得从结构生物学角度理解蛋白质并据此设计实验成为一种更加普遍的研究方式。同时,另一类逐渐被更广泛研究者采用的工具是生成式或设计类方法,这类工具能够以更快的速度和更高的成功率工程化设计新的蛋白质序列,并有望在不久的将来拓展到小分子设计领域。
Peilong Lu (卢培龙): 蛋白质建模领域的最新进展,尤其是AlphaFold 3和RoseTTAFold All-Atom,显著提升了蛋白质结构与相互作用预测的准确性和适用范围。这些模型已不再局限于蛋白质本身,而是扩展至包含核酸、小分子配体以及翻译后修饰的复合体系,从而支持更复杂的模拟和功能性生物系统的从头设计。在相关研究中,这些工具被用于构建配体结合位点、优化酶活性中心以及设计蛋白质-核酸界面,显著提高了从头蛋白质设计的精度与成功率。
Q: 目前已有的基于机器学习的工具在预测小型球状蛋白结构方面表现良好。那么在生成蛋白质复合体、膜蛋白以及部分有序或部分无序蛋白的结构模型时,这些工具的准确性如何?同时,在提升这类蛋白结构预测能力方面,目前主要面临哪些障碍?
Peilong Lu (卢培龙): 在蛋白质复合体预测方面,AlphaFold-Multimer和AlphaFold 3等方法已经能够较为准确地预测许多相互作用紧密的复合物。然而,在处理大型、结构复杂、具有高度动态性或瞬态特征的复合体时,仍然存在显著挑战,尤其是在涉及构象变化或弱相互作用界面的情况下。对于膜蛋白而言,这些方法在许多跨膜蛋白的结构建模中表现出很高的准确性,但在面对大型、动态或瞬态的膜蛋白复合体时,同样受到类似限制。至于部分有序或本征无序蛋白,多数预测工具的表现较差,原因在于这些模型通常基于高度有序、静态结构进行训练,往往会将无序区域错误地折叠为非天然的人工构象。进一步提升预测能力的主要障碍在于这类体系缺乏足够的高分辨率实验数据。应对这些问题需要将深度学习与分子动力学模拟相结合,引入交联蛋白组学数据,从更深层次的序列比对中提取共进化信号,并发展新的深度学习方法。
Bruno Correia: 预测效果在很大程度上取决于蛋白质复合体和膜蛋白中所包含的进化信息。当进化信息充分时,即便是极其复杂的复合体和膜蛋白,预测结果也可能非常出色。相比之下,部分有序蛋白或本征无序蛋白无疑是更加困难的对象,现有预测算法难以取得良好效果,而这在一定程度上并不令人意外,因为相关的真实结构数据极为稀缺,且获取难度很高。
Cecilia Clementi: 将结构预测从球状蛋白拓展到其他结构类型所面临的核心挑战,一方面在于高分辨率数据数量有限,另一方面在于缺乏用于量化预测成功与否的清晰评价指标。例如,部分无序蛋白通常以结构集合的形式存在,很难定义一个明确的“真实结构”作为模型训练和评估的依据。此外,大型复合体在功能过程中往往具有高度动态性,蛋白质可以不断结合与解离。这些问题共同表明,蛋白质结构预测需要超越单一静态结构的范式。
Q: AlphaFold 3、RoseTTAFold等基于机器学习的工具主要用于预测蛋白质结构,而非折叠路径。这些方法在考虑不同溶液条件或温度变化方面的能力如何,以及提升对蛋白质动态结构认知还需要哪些关键进展?
Bruno Correia: 这确实是一个核心问题。现有算法并不具备关于蛋白质折叠路径的知识,这本身也并非其训练目标,因为即便在生物化学研究中,真正明确折叠路径的实例也十分有限。当前的重要前沿在于如何预测蛋白质的“动态个性”。尽管部分算法通过学习序列与结构之间的映射关系,在一定程度上提供了有关蛋白质行为的线索,但在动力学预测方面仍然存在根本性局限。这些限制一方面源于实验数据的匮乏,相关数据本身难以获取,另一方面也与蛋白质动力学对微小变化极其敏感有关,例如点突变即可显著改变动力学特性。这使得问题变得尤为复杂,因为多数算法依赖统计学习而非严格基于物理原理。正因如此,蛋白质动力学成为理解蛋白质功能与工作机制中的一个关键且极具挑战性的研究方向。
Cecilia Clementi: 要描述动态结构并预测蛋白质在环境条件变化下的构象响应,有必要在机器学习模型中整合多种数据来源,既包括模拟数据,也包括实验测量结果,同时显式引入必须满足的物理约束和热力学原理。目前已经开始出现一些朝这一方向努力的研究工作,其中也包括其研究团队的相关探索,并且在未来几年有望取得显著进展。
Peilong Lu (卢培龙): 现阶段模型给出的结构预测本质上反映的是训练数据中所隐含的正常生理溶液条件,而诸如pH、温度、压力和离子浓度等关键变量并未被显式纳入预测过程之中,这在很大程度上限制了模型对环境依赖性结构变化的刻画能力。
Q: 目前的工具在结构之外的性质设计方面究竟有多准确?为了提升具备生物学功能和或化学反应性的蛋白质设计能力,还需要哪些关键突破?
Cecilia Clementi: 现有工具在刻画蛋白质功能的动态层面上仍显不足。这一问题本身极具挑战性,因为蛋白质动力学跨越了极其广泛的时间尺度,且很难将其简化为少量可测量的数值指标。生物学功能往往源于多种蛋白质及其他分子的相互作用,局部构象变化可能引发整体重排并触发信号级联反应。要真正刻画生物分子功能,需要能够定量预测构象变化、有序-无序转变以及结合亲和力,但受限于大规模且可靠数据的缺乏,当前工具在这些方面仍然能力有限。多尺度方法和多模态学习策略的开发被认为是理解这些过程的关键方向,尽管已有研究团队开始朝这一目标推进,但对相关过程的完整刻画仍有待实现。
Peilong Lu (卢培龙): 在结构之外的蛋白质性质工程方面,例如催化活性和变构调控,现有方法已经取得一定进展,但由于需要对多状态动力学进行建模,仍面临显著挑战。尽管在界面定义较清晰的情况下,结合蛋白的设计变得日益可行,但对结合亲和力的精确预测和调控依然困难。与此同时,蛋白质语言模型逐渐成为序列到功能预测的重要工具,能够从序列数据中捕捉进化约束并识别功能位点。然而,这类模型也继承了训练数据分布不均带来的偏倚,某些特定蛋白家族,例如抗体,在通用模型中的代表性不足,从而限制了其在治疗性设计等专门任务中的表现。当前的核心瓶颈在于对构象集合及其与配体、底物或光、电压等物理刺激之间动态相互作用的建模能力有限。推动该领域进一步发展,需要更多高质量且标准化的实验数据用于模型训练与验证。未来的发展方向很可能在于将能够捕捉序列层面功能约束的语言模型,与同时考虑几何、能量学和动力学的结构驱动物理模型相结合。
Bruno Correia: 总体而言,现有设计工具在构建相对“静态”的结构方面表现尤为突出。生物学功能本身是一个范围极广的概念,通常依赖于系统中多种成分和变量的共同作用,因此功能设计远比结构设计复杂得多。尽管如此,在从头设计蛋白质-蛋白质相互作用方面已经取得了显著进展,这些成果在数年前几乎难以想象。相比之下,小分子结合和酶学活性的设计仍然是极具挑战性的难题,这类问题往往高度依赖细微结构特征以及蛋白质本身的动力学行为,因此仍有大量关键问题有待深入研究。
生成式人工智能方法已被用于辅助新型蛋白质的设计。那么,哪些技术给人留下了深刻印象,这一领域目前又面临哪些主要挑战?
Bruno Correia: 生成式人工智能方法近年来取得了令人惊叹的进展。但需要指出的是,如果没有性能卓越的序列预测工具用于筛选最有前景的设计方案,许多生成式工具的实用价值将大打折扣,而正是这一能力的出现彻底改变了蛋白质设计的格局。随着生成算法本身不断增强,设计结果的整体质量也在提升,但仍有大量工作亟待完成。目前,许多生成式设计仍会产生大量在生物学上不合理的结果,提高设计效率是推动蛋白质设计普及化、降低使用门槛的关键一步。在小分子设计相关问题上,挑战依然极其严峻,基于机器学习的工具是否已经在药物设计中带来真正的变革,仍存在争议。
Peilong Lu (卢培龙): RFdiffusion和ProteinMPNN等技术产生了尤为深远的影响。最新版本的RFdiffusion 3能够在原子分辨率水平上,在配体、核酸及其他非蛋白组分的条件约束下生成蛋白质结构,从而支持高度定制化功能位点和多组分复合体的设计。尽管取得了显著进展,该领域仍面临重要挑战。例如,设计具有动态构象或多重功能状态的蛋白质,如参与变构调控或对刺激作出响应的体系,依然十分困难。实现可调控、可控制且模块化的功能仍是主要瓶颈。克服这些限制可能需要更加丰富的实验数据,更准确地刻画蛋白质柔性及其所处环境背景,例如膜环境、pH条件和辅因子,并将蛋白质语言模型中提取的序列层面信息与引入物理约束的生成模型加以整合。
Cecilia Clementi: 蛋白质动力学及其对环境变化的响应是当前面临的核心挑战之一。近期一些研究展示了能够在多种构象之间切换的蛋白质设计实例,这一方向被认为在功能性蛋白质设计中具有极大的发展潜力。
Q: 基于机器学习的工具对大规模数据集具有高度依赖性。那么,科研社区还应构建哪些新的数据资源,以进一步推动蛋白质设计与蛋白质功能理解的发展?
Peilong Lu (卢培龙): 首先需要扩展涵盖功能性与生物物理测量的数据集,例如结合亲和力、催化速率以及在不同条件下的蛋白质稳定性等信息。这类数据将有助于模型更准确地预测功能结果,使研究重点不再局限于结构本身。其次,用于捕捉蛋白质动态行为和多状态构象的数据同样至关重要,其中包括中间态和构象集合,可来源于交联实验、时间分辨晶体学、冷冻电镜以及核磁共振等技术。这些数据对于刻画依赖结构动力学发挥功能的蛋白质不可或缺。最后,系统性地整理并共享失败或无功能设计的数据也具有重要价值,这类数据往往被忽视,但能够为模型提供关键的负样本,从而优化训练集并提升预测模型的稳健性。由社区主导的数据生成、标准化与共享工作,将成为推动蛋白质设计实现下一次飞跃、提升预测能力与生物学影响力的关键因素。
Cecilia Clementi: 如果能够不断积累关于蛋白质-蛋白质相互作用、蛋白质-配体结合以及蛋白质复合体形成的数据集,并且不仅限于结构信息,而是同时配套提供结合亲和力等实验测量结果,将对模型发展产生极大帮助。
Bruno Correia: 提出一个更具前瞻性的设想,即为每一种蛋白质系统性地开展深度突变扫描实验,从而系统理解不同扰动对蛋白质功能和结构所产生的影响。这类数据有望推动人们重新思考蛋白质功能的定义,在其看来,蛋白质功能远不应仅被理解为某一静态结构的快照。
Q: 基于机器学习的方法在多大程度上已经与分子动力学、密度泛函理论以及粗粒化模型等其他计算方法实现了融合?是否已经出现能够整合多种思路、用于蛋白质性质设计的混合型工具?
Cecilia Clementi: 过去几年中这些方向均取得了显著进展。其研究团队正在开发基于机器学习的粗粒化方法,并近期发布了一种可迁移的粗粒化力场,用于在长时间尺度上模拟蛋白质动力学行为。然而,能够在宽广长度尺度范围内整合不同分辨率、对蛋白质进行统一描述的方法仍处于起步阶段。随着针对固定分辨率的方法逐渐变得高度精确,开发跨尺度的混合型工具被视为顺理成章且不可避免的下一步。
Bruno Correia: 机器学习方法已经开始被用于加速分子动力学模拟中的采样过程,以及构建能量函数的替代模型。当前才刚刚看到这一方向的初步成果,其难点在于如何设计既基于统计学习,又同时严格遵循物理先验的模型架构。不过,这一问题被认为是建模领域未来将持续深入探索的重要方向。
Peilong Lu (卢培龙): 以AI2BMD这一工作作为具有代表性的实例。AI2BMD是一种基于人工智能的从头算生物分子动力学混合体系,在生物分子模拟中有效弥合了精度与可扩展性之间的矛盾。该方法结合了蛋白质片段化策略与基于量子力学数据训练的机器学习力场,能够以远低于密度泛函理论的计算成本,实现对包含一万多个原子的生物大分子进行全原子级、接近从头算精度的模拟。在蛋白质设计实践中,分子动力学模拟常被用作关键的验证手段,用于评估所设计蛋白质的稳定性、构象动力学特征及功能行为。尤其是在膜蛋白和高度动态的复合体系中,仅依赖静态结构模型往往不足以反映真实行为。分子动力学模拟能够帮助判断设计结构在特定条件下是否保持完整性、配体如何结合,以及预期的构象转变是否能够实际发生。
Q: 机器学习在科学研究中的广泛应用已经展示了其巨大的潜在价值,但在其他领域中,人工智能产品的发展也引发了关于安全性和能源消耗的担忧。那么,在科学研究中负责任地使用人工智能是否存在隐忧,又可以采取哪些措施加以应对?
Peilong Lu (卢培龙): 目前尚未看到蛋白质设计领域中与人工智能相关的紧迫或普遍风险,不足以支持采取严格的监管措施,因为过度监管可能会减缓科学进展,并削弱应对气候变化、可持续制造和公共健康等全球性挑战的能力。不过,如果在生物学中需要采取前瞻性的责任措施,对关键技术瓶颈进行监测,例如DNA合成环节,可能是一种可行路径。其中,加强商业DNA合成服务商用于识别敏感序列的筛查系统,被视为最有效的安全保障手段之一。近期的一项研究表明,人工智能驱动的蛋白质设计确实可能生成在序列层面规避传统生物安全筛查的有害蛋白变体,但同时也证明,引入人工智能增强的筛查软件后,即便是经过高度重新设计的序列,仍然能够被有效识别。这说明关键不在于限制人工智能的使用,而在于同步提升监测与检测能力。通过持续改进检测算法,并加强学术界、工业界与合成技术公司之间的合作,可以在保持科学开放性的同时确保生物安全。核心原则在于以科学为导向的自适应监管,在不抑制创新的前提下与技术发展保持同步。
Bruno Correia: 随着这些技术变得愈发强大,确实需要谨慎对待其潜在影响。但从另一个角度看,自然界本身已经产生了大量具有危害性的分子,因此有害分子并不稀缺。在其看来,对于不可自我复制的实体而言,很难想象会出现能够在大规模层面造成危害的分子。至于能耗问题,这一担忧确实存在。当前研究往往倾向于采用计算代价高昂的“蛮力”方法,而其实际收益有时并不完全清晰。不过,这种探索本身也是科研过程的一部分,随着对算法能力理解的不断加深,相关方法有望在未来变得更加高效。
Cecilia Clementi: 过去几年中结构预测和蛋白质设计的显著进展,可能在无意中降低了设计新型病原体的技术门槛,这一风险需要引起重视并采取预防措施。相比之下,人工智能在科学研究中的能源消耗,相较于大型语言模型在文本和图像生成中的训练与部署成本,实际上是相对有限的。她认为,负责任地使用机器学习工具的前提在于深入理解模型的工作机制,从而既能合理应用,也能从中提取科学知识。可解释人工智能方法有望被引入并拓展至科学问题中,以简化模型结构并解析模型学到的内容。同时,将物理约束显式纳入模型中,也被认为有助于减少模型幻觉和潜在滥用风险。
Q: 在计算预测蛋白质性质方面,哪些方向最为重要或最具研究价值?未来几年中,又希望看到哪些发展或里程碑式的成果?
Peilong Lu (卢培龙): 计算蛋白质设计中一个尤为令人振奋的前沿方向,是对动态膜蛋白(如转运蛋白和受体)的从头设计。这类蛋白质通过介导信号分子和代谢物跨生物膜的选择性交换,在细胞通讯和代谢过程中发挥着关键作用。如果能够从基本原理出发设计此类蛋白,并使其对人工或可调控配体作出响应、传递特定信号或转运非天然底物,将有望在合成生物学、生物传感以及靶向治疗等领域带来变革性进展。然而,要实现对动态、刺激响应型膜蛋白的精确功能控制仍然极具挑战性。这一目标要求研究范式超越静态结构模型,能够准确模拟构象集合、配体相互作用以及自由能景观。若能达到这一层次,将标志着一次根本性转变,即从设计惰性的结构支架迈向构建具备智能调控能力、可跨膜执行功能的分子机器。
Cecilia Clementi: 蛋白质动力学是下一个关键前沿。要实现对蛋白质动力学的可靠预测,亟需由科研社区共同推动数据库、基准体系和阶段性目标的定义与整理。她认为,不仅能够预测结构集合本身,还能够预测其在不同条件下的变化,将是一项具有里程碑意义的成就,并希望在不久的将来为这一方向的发展作出贡献。
Bruno Correia: 从更具应用导向的角度指出,如果能够预测生物大分子的“可开发性”以及其免疫原性,将对新型治疗手段的开发产生深远影响。在其看来,另一项同样具有里程碑意义的突破,是从头设计的蛋白质能够在不引发免疫反应的前提下被常规用作药物。这将彻底改变相关领域的发展格局。实现这一目标的前提,在于深入理解免疫原性的决定因素,并掌握在不触发免疫反应的情况下“隐形”递送这些蛋白质的方法。