ACS Catal. 2025 | 机器学习驱动的酶挖掘:机遇、挑战与未来展望

今天介绍的这项工作来自 ACS Catalysis。这篇综述系统梳理了机器学习驱动的酶挖掘如何从基因组与宏基因组海量序列中高效发现功能性生物催化剂,重点总结了三类功能注释任务(酶学分类号、基因本体术语、底物特异性)以及多类性质预测任务,包括米氏常数

获取详情及资源:
0 摘要
酶挖掘正在从传统的经验驱动方法加速转向数据驱动策略,其核心目标是在海量未注释蛋白中快速定位具有特定生物催化功能的候选酶。随着序列与结构数据的快速积累,将机器学习融入酶挖掘流程,使高通量预测成为可能,从而在早期筛选阶段就能够对酶功能进行系统化推断,显著提升发现效率与命中率。在功能层面,机器学习模型可用于预测酶的功能注释信息,包括酶学分类号、基因本体术语以及底物特异性等,并进一步将预测从“是什么酶”扩展到“能催化什么反应、偏好什么底物”。在性质层面,相关方法也开始覆盖更直接影响应用价值的关键催化属性,例如动力学参数、最适温度与最适pH、溶解性与嗜热性等,从而为生物制造、合成生物学与工业生物催化中的酶选择与改造提供更可操作的指标。该综述对当前最先进的机器学习模型进行了系统梳理,并结合具有代表性的案例展示这些模型在加速酶发现方面的有效性,体现出从大规模筛选到定向验证的整体提速潜力。与此同时,现有方法仍面临若干瓶颈:一方面,高质量标注数据不足与数据分布偏差限制了模型的训练与评估;另一方面,模型在跨家族、跨物种或跨反应类型场景下的泛化能力仍不稳定;此外,对预测依据的解释不足也影响了模型在实验决策与机制理解中的可用性,使其更像“黑箱筛选器”而非“可推理的研究工具”。针对上述限制,该综述讨论了若干正在兴起的改进方向,包括通过多任务学习共享表示以缓解单任务数据稀缺问题,通过整合多模态信息提升对复杂酶表型的刻画能力,以及借助可解释人工智能方法增强预测结果的可理解性与可验证性。这些策略共同指向一个更稳健的机器学习酶挖掘范式,即在更少标注、更强外推与更高透明度的条件下仍能保持可靠表现。进一步地,该综述展望了机器学习与自主实验平台、以及具备规划与执行能力的智能体系统的融合前景。随着自动化实验闭环逐步成熟,机器学习不仅用于一次性预测,还可能与实验反馈共同构成迭代优化流程,推动**“自驱动”的酶发现体系形成,从而在更大搜索空间内以更低成本完成从候选生成**、优先级排序到实验验证与再学习的连续推进。总体而言,机器学习引导的酶挖掘有望发展为一种可扩展、可解释且日益自主的框架,持续释放其在生物技术、生物催化与合成生物学中的应用价值。
1 引言
酶是关键的生物催化剂,负责介导维持生命体系所需的复杂化学转化。凭借广泛而精妙的催化多样性,酶在生物技术、合成生物学与工业生物催化中占据不可替代的地位。尽管公共数据库已收录了大量与酶相关的序列信息,仍有相当比例的酶处于未表征状态,通常仅有一级序列而缺乏实验验证的功能注释。要释放这部分“暗物质序列”的应用潜力,关键在于建立稳健的功能注释框架,并发展能够直接从序列推断关键生化性质的预测模型。
传统的酶发现长期依赖培养相关的方法,典型流程包括分离目标微生物、进行培养,并通过生化筛选获得感兴趣的酶。该路径在可培养类群中行之有效,但受限于多数微生物难以在实验室条件下培养的现实,整体可达序列空间十分有限。宏基因组学的兴起显著拓展了可探索的酶序列空间,通过直接测序环境DNA,使大量潜在酶序列得以被捕获,并在诸如MGnify等平台上积累到数以百万计的蛋白编码序列。然而,功能注释的稀缺仍然是核心瓶颈,既限制了生物学解释,也阻碍了向应用端的转化。
为突破“序列激增而注释滞后”的矛盾,酶挖掘逐渐发展为连接序列数据与潜在酶功能的计算策略。序列相似性网络、EnzymeMiner以及比较基因组学等工具,可基于同源性、保守基序与基因组上下文等信息对候选酶进行优先级排序,从而更高效地锁定值得实验验证的高置信目标。随着方法成熟,计算酶挖掘不再仅用于候选筛选,还越来越多地参与实验设计,通过提出假设驱动的优先级来指导设计-构建-测试-学习循环,并反过来促进训练数据集的完善,推动机器学习模型在更广泛酶学场景中的适用性提升。由此,计算预测与经验验证之间的衔接更紧密,整体发现流程也随之加速。
尽管进展显著,关键挑战仍然存在。大量候选序列缺乏标准化的功能注释,例如酶学分类号或基因本体术语,使得数据检索、可靠访问与统一基准评测变得困难。与此同时,新一代测序、微流控与高通量筛选技术持续提升实验效率并降低成本,但实验验证仍然耗时且消耗资源,难以跟上海量序列涌入的速度,从而进一步凸显可扩展计算方案的重要性。近年来,高通量功能筛选产生了更大规模的数据集,为新一轮机器学习驱动的酶发现提供了训练基础。基于这些数据训练的模型已能够预测催化活性、底物特异性以及多种理化描述符,进而将实验流程从广泛筛查推向更聚焦的验证路径。这类方法不仅降低实验负担,也有助于加深对序列-功能关系的机制性理解。
相关工作对用于酶挖掘的机器学习策略进行了系统分析,重点强调其在酶的识别、注释与表征加速中的作用,覆盖功能与理化性质两个维度。一方面,讨论了功能分类方向的最新进展,包括对酶学分类号、基因本体术语以及底物特异性的预测;另一方面,也涉及关键酶学性质的估计,例如动力学参数、热稳定性、最适pH与溶解性等。同时,该综述关注机器学习模型架构的多样性,涵盖监督、无监督与多模态框架,以及这些模型如何嵌入可扩展的预测型发现流水线。文中还总结了具有代表性的案例以展示工具的实际效用,并对数据稀缺、可解释性不足与泛化能力受限等问题进行评述。最后,提出模块化的机器学习引导酶挖掘策略,并展望将计算预测与实验验证耦合的自主闭环发现平台,为下一代酶生物技术奠定基础。

图1 | 展示了从序列筛选到实验验证的传统酶挖掘流程。 该流程始于酶库构建阶段,依据功能或结构相关标准从蛋白质数据库中筛选候选序列。随后进入序列表征阶段,通过聚类算法、序列相似性网络或系统发育方法分析序列多样性及其相互关系。第三阶段为功能注释,主要包括对酶功能的计算预测,并据此对候选序列进行优先级排序,以便进入下游验证。最后的实验验证阶段通过生化测定与高通量筛选对预测结果进行确认。上述环节共同构成一个循环且可迭代的流水线,用于从基因组与宏基因组数据中发现并表征新的酶。
2 结果
2.1 酶挖掘作为功能性生物催化剂发现的核心框架
酶挖掘已成为现代生物技术中用于发现功能性生物催化剂的核心策略,能够在基因组与宏基因组数据所编码的海量且大多未表征的序列空间中,系统性地识别潜在酶资源。与传统酶发现路径相比,酶挖掘绕开了实验室培养环节,因而能够直接触达来源于极端环境或其他难以获取微生物的酶,将生物催化剂发现的边界扩展到以往受限的微生物多样性范围,并有利于在大规模序列空间中发掘具有新颖或非典型催化功能的候选酶。然而,这种计算范式高度依赖在缺乏实验验证条件下的功能注释准确性,同时也存在通过同源推断传播错误预测的风险。
从概念上看,酶挖掘处于酶发现与酶工程的交汇点。酶发现通常通过实验或宏基因组探索来获取新酶,而酶工程则通过理性设计或定向进化将已知酶定制为特定用途。酶挖掘在两者之间发挥连接作用,以计算方式优先筛选具备理想属性的候选序列,为后续优化提供起点,因而在生物技术工作流中越来越重要,既影响新酶的选择,也影响其进入工程化管线的方式。相关讨论通常将酶工程的细节留给专门综述,而将重点放在挖掘流程本身的可扩展与可验证性上。
传统的酶挖掘流程一般由相互依赖的阶段构成,包括定制化酶库构建、序列层面的表征与多样性分析、功能注释与候选优先级排序,以及对筛选目标的实验验证。该流程虽已被广泛采用,但随着宏基因组资源库以近似指数速度增长,其可扩展性与分辨率逐渐面临压力。流程起点是酶库构建,即依据研究目标从蛋白序列中筛选候选集合,既可用于定向寻找特定类型生物催化剂,也可用于更宽泛地探索酶超家族。序列检索往往结合多种策略,例如利用BLAST开展同源搜索,借助Foldseek或ESM Metagenomic Atlas进行结构层面的比较,以及通过InterPro等综合平台进行结构域驱动的检索。诸如EnzymeMiner等自动化工具可在该阶段依据酶学分类号进行过滤,并按功能特征对序列进行聚类,从而提升酶库生成的特异性与规模化能力。类似思路在更早的工作中已被探索,并逐步推广到不同酶家族的挖掘实践中。
支撑酶挖掘的基础是蛋白序列数据库,其规模巨大且持续扩张。除UniProt与NCBI等综合性资源外,还存在大量任务导向的专用数据库,通常提供更聚焦且注释更精细的集合,例如PlasticDB与PAZy等与塑料降解相关的资源,以及UPOBase、PrenDB和若干工业酶数据库等。近年来,MGnify等宏基因组数据库的重要性显著上升,其优势在于能够捕获环境多样性并揭示潜在新酶功能。宏基因组资源与不同类型微生物组的专门数据库也已形成体系化整理,为大规模挖掘提供了入口。结构层面的数据库过去主要以RCSB PDB为中心,但随着AlphaFold及相关计划出现,结构景观发生了显著扩展。AlphaFold Protein Structure Database等资源,以及Protein Universe Atlas等可视化平台,与实验结构库形成互补,使大规模结构-功能探索成为可行路径。针对蛋白与酶数据库的更全面梳理也已在近年的专题综述中给出,便于进一步延伸阅读。
酶库构建完成后,通常需要在序列层面对其多样性、冗余度与进化关系进行分析。序列相似性网络、系统发育树以及多种聚类算法常用于将同源序列分组并降低冗余,例如CD-HIT、DBSCAN与MMseqs2等工具。序列相似性网络尤其提供了直观的图结构表示,可将每条蛋白序列视为节点,并以满足特定同源阈值的序列对作为连边。借助EFI-EST等可视化工具,能够动态调整阈值并探索网络结构,从而在同一框架下识别近缘同源物与更远缘的变体,这些远缘序列往往更可能对应新的功能、不同的结构折叠或独特的催化性质。
在整个流水线中,功能注释通常被认为是最关键且最具挑战的环节。该阶段依赖生物信息学预测,依据序列基序、保守结构域或推断的结构特征来推断催化功能、底物特异性或环境耐受性。尽管同源性方法与人工整理数据库仍是基础,但在处理远缘同源、具有多功能倾向的酶,或来源于缺乏表征类群的序列时往往力有不逮,这也促使更先进的注释技术受到关注,其中基于机器学习的方法因其在复杂映射学习上的优势而逐渐成为重点方向,并在后续章节展开。
流程的最后阶段是实验验证,即对排名靠前的候选进行表达与纯化,并通过生化测定验证预测功能。常见评估指标包括催化活性、底物谱、热稳定性与pH耐受性等。近年来,高通量筛选平台显著提升了验证的速度与规模,有利于在发现与优化之间形成迭代循环。基于微流控技术的超高通量筛选平台进一步加速了实验数据获取,并产生了大规模功能数据集,为训练能够预测酶性质并指导设计的机器学习模型提供了重要基础。实验反馈还可用于修正筛选标准或再训练预测模型,增强流水线的自适应能力,并强化设计-构建-测试-学习循环的闭环属性。
尽管传统酶挖掘框架具有明确价值,仍存在若干持续性瓶颈。同源推断在很大程度上主导功能注释,使得在序列高度分化区域中的发现能力受限。公共库中的冗余与数据不均衡也会引入偏差,从而掩盖那些稀有但具有高应用价值的酶。此外,宏基因组数据体量的持续增长已超过许多传统工具的分析承载能力,导致在大规模条件下的候选优先级排序与结果解释变得困难。这些限制共同指向对更可扩展、更准确且更具泛化能力的计算框架的需求,并直接推动机器学习融入酶挖掘的各个阶段。相关讨论进一步分析了机器学习如何在不同环节提供预测性与规模化替代方案,通过功能预测、候选排序与序列到功能的泛化能力,促使生物催化剂发现从规则驱动筛查逐步转向可在大规模数据上进行推断的数据驱动范式。
表1 | 展示了近期且具有广泛适用性的机器学习工具汇总,用于酶功能与性质预测。

2.2 用于酶发现与酶挖掘的机器学习策略
高通量测序技术的进步以及基因组与宏基因组资源库的指数级增长,显著拓展了可用于酶发现的序列空间。然而,要从这一庞大且高度异质的序列景观中提取可靠的功能信息,需要能够超越同源比对与传统规则启发式方法的计算框架。机器学习在这一背景下逐渐成为具有变革性的手段,以数据驱动方式刻画复杂的序列-功能关系,预测多类酶学性质,并在不同分类单元与生态来源之间实现可扩展的候选优先级排序。本节围绕基于机器学习的酶挖掘概念基础与方法进展展开,并梳理早期数据驱动策略如何推动当前模型架构形成,尤其强调其向深度学习与蛋白语言模型方向的演化。重点内容包括用于功能注释的预测框架,例如酶学分类号、基因本体术语与底物特异性,以及用于酶学性质估计的框架,例如动力学、热稳定性与溶解性。同时,仍需面对的关键挑战包括模型泛化能力、可解释性与数据可得性等。最后通过代表性案例展示这些方法在真实酶挖掘场景中的应用方式,并为进一步发展完全自主的机器学习引导发现流水线奠定背景。
2.2.1 酶生物技术中的数据驱动建模与机器学习基础
数据驱动策略已成为现代计算生物学的重要支柱,能够提供与传统规则方法互补的预测与探索能力。在酶生物技术语境中,机器学习可用于建模复杂的序列-功能映射,在高维数据空间中导航,并从大规模生物数据集中生成可用于指导实验的假设。典型的机器学习建模流程通常从数据收集开始,数据来源既包括公共数据库中的序列与注释,也包括实验测定形成的数据集。随后进入关键的数据表示阶段,既可以依赖人工构建特征,也可采用经典编码方式,例如one-hot编码或k-mer频率,更进一步则可使用由预训练蛋白语言模型生成的嵌入表示。与此同时,结构编码器与几何深度学习等方法也逐渐成为有前景的替代路线,用于从酶的三维结构或图表示中捕获空间与拓扑信息。在完成数据准备后,模型训练可采用支持向量机、随机森林等经典算法,也可采用深度神经网络与transformer等更复杂的架构。许多任务中,对预训练模型进行微调或引入几何深度学习架构,被认为是提升生物任务泛化能力的有效策略。为进一步提高性能,常见做法还包括超参数优化,例如网格搜索、随机搜索、遗传算法或贝叶斯优化。模型训练完成后,可用于对新数据进行推断,或被整合进更大规模的酶发现、注释或设计流程中,并通过模块化或基于网页的系统提升可扩展性与可复现性。
尽管方法体系不断完善,机器学习在酶生物技术中的落地仍面临持续挑战。数据稀缺依然是基础性限制,尤其是在标注样本量有限或类别分布不均衡的低样本场景中更为突出。公共数据集往往偏向于过度代表的酶家族或研究充分的模式生物,从而引入注释偏差并削弱跨家族、跨物种的泛化能力。另一方面,模型可解释性问题,尤其在深度学习架构中更为显著,会影响其在强调机制理解的生物研究场景中的采纳与信任。为缩小计算预测与实验验证之间的鸿沟,引入可解释人工智能、集成不确定性估计并提升透明度的重要性日益上升。上述基础共同界定了机器学习用于酶挖掘与酶发现的概念与方法版图,后续部分将进一步展开具体应用,包括功能注释与酶学性质预测等方向。
2.2.2 酶挖掘的早期数据驱动策略
早期的数据驱动方法为现代酶挖掘中的机器学习奠定了基础。这些方法依托结构化数据集与统计学习,实现了对酶的功能分类与性质预测,标志着酶挖掘从依赖培养与实验通量约束的传统筛选模式,逐步转向可规模化的计算推断范式。相关工作通常首先聚焦于功能注释任务,包括酶学分类号分配、基因本体术语预测与底物特异性分类,以提升在缺乏实验验证条件下的功能推断能力。随后,研究重心也扩展到酶学性质的估计,例如催化效率、热稳定性、溶解性以及最适反应条件等,以支持更面向应用的候选筛选与实验设计。此外,相关总结通常以工具概览形式梳理不同预测任务中最新且影响力较高、适用性强并易于使用的方法与资源,便于在具体场景中进行选择与集成。
2.3 构用于酶功能注释的机器学习模型
酶的功能注释在酶生物技术中具有核心地位,支撑生物催化剂的识别、分类与再利用,并服务于工业、制药与环境等应用场景。尽管基于活性测定、结构分析与比较基因组学的传统方法仍然可靠,但其资源消耗高,且在基因组与宏基因组数据迅速扩张的背景下愈发难以匹配数据增长速度。机器学习因而成为重要替代方案,能够基于序列与结构特征直接推断酶功能,并逐渐成为酶挖掘工作流中的关键组成部分。这类分类模型可在多个层级进行功能预测,涵盖反应类型、催化机制与底物特异性等维度。通过结合多种数据模态,例如氨基酸序列、结构基序与分子表示,机器学习方法推动了酶学分类号、基因本体术语以及酶-底物相互作用预测的进展。同时,也出现了面向催化机理假设的模型,例如EzMechanism,其基于整理过的反应规则自动提出可能的催化路径,在关注单步化学过程的层面补充了以全局类别标签为主的分类模型。
相关研究通常将机器学习的功能预测归纳为三类主要任务。其一是酶学分类号预测,以酶所催化的化学转化为依据进行分层预测,并覆盖四级层级结构,从较宽泛的反应类别到具体的底物-产物转化。其二是基因本体术语预测,提供更广泛的功能语境,涵盖分子功能、生物过程以及亚细胞定位,并常结合结构、进化与本体层级信息。其三是底物特异性预测,用于评估酶与底物的相容性,从而支持理性设计与高通量候选优先级排序;该类模型可实现二分类预测、对候选底物进行概率排序,甚至预测完整的底物谱。
在酶学分类号预测方面,早期模型如ECPred采用基于整理的序列相似性数据训练的集成分类器,在样本充足的酶类别上表现良好。随着深度学习的发展,模型在覆盖度与泛化能力上取得显著提升。例如DeepECtransformer在超过2200万条序列上训练,在多数酶学分类号类别上获得超过0.90的precision与F1,并对400多个此前未表征的大肠杆菌基因完成注释,其中部分结果后来得到实验验证,显示出指导湿实验发现的潜力。另一模型CLEAN将对比学习与ESM生成的嵌入表示结合,在整理过的基准评测上取得接近0.87的F1,在低序列一致性与多功能酶场景中表现更为突出。较新的HiFi-NN进一步体现了嵌入驱动方法的可扩展性,通过分层微调与近邻检索,能够在序列一致性低于40%的情况下对宏基因组序列进行注释。总体而言,当前酶学分类号分类器在独立基准上常达到80%到95%的准确率,并已成功应用于全基因组与宏基因组数据,将原始序列转化为可解释的功能酶目录。
基于基因本体术语的功能注释能够从多维度刻画酶活性,同时覆盖分子功能、生物过程与细胞定位。与主要反映反应层级化学信息的酶学分类号不同,基因本体术语预测更强调酶在细胞系统中的生物学语境,可作为催化分类的重要补充层。然而,该任务因本体层级结构复杂、标签极度不均衡、功能覆盖不完整以及公共数据库中过多同源序列导致的偏倚而更具挑战。为应对这些问题,多种深度学习与图表示方法被用于捕获基因本体术语的层级结构。例如DeepFRI在蛋白结构图上采用图卷积网络,实现对残基空间关系的推理并识别与功能相关的位点。PFresGO将基因本体层级融入自注意力层,并在包含36641条蛋白序列与2752个基因本体术语的整理数据集上训练,在独立测试集上分别取得0.6017、0.2934与0.3612的AUPRC,并显示出对同源性依赖较弱的特点,体现出可扩展性与泛化能力。PFresGO还在位点级解释方面表现突出,能够以较高特异性识别关键功能残基,且注意力权重与实验验证的功能位点呈现良好相关性,为蛋白功能注释与位点解释提供了较强框架。类似地,SPROF-GO将预训练蛋白语言模型的嵌入与标签扩散结合,在UniProt中2018年前注释的蛋白数据上训练,并利用Swiss-Prot、GOA与GO等资源,相较早期序列与网络方法在三大子本体上实现14.5%到27.3%的AUPRC提升。该模型在非同源与分类学新颖蛋白上的高准确性也体现出大规模预训练带来的泛化优势。除此之外,TransFew与PU-GO等方法分别引入少样本学习与正-未标注学习,以提升在有限数据条件下的推广能力并缓解标签不完整问题。
底物特异性通常被定义为酶对特定底物进行催化的能力,由于其能够依据预测的底物偏好对候选酶进行优先级排序,在酶挖掘中的重要性持续上升。从较早的GTPredict与AdenylPred,到更近年的多模态深度学习框架如ProSmith与ESP,相关模型通常同时利用蛋白与底物的表示。经典模型往往基于理化描述符与分子对接特征,在特定酶家族上可获得80%到90%的准确率。近年来的多模态框架进一步提升了规模与泛化能力。ProSmith在多模态transformer网络上使用基于transformer的嵌入,并结合梯度提升决策树,用于预测数千对酶-底物组合的底物谱。该模型在超过80万条增强的酶-底物对上训练,在独立测试集上达到94%的准确率;ESP在训练集序列一致性低于40%的酶上仍可实现超过90%的准确率。作为ProSmith的前身,ESP通过图神经网络编码底物结构并与酶嵌入结合,再借助梯度提升框架实现灵活且准确的底物特异性预测。在此基础上,Substrate-Enzyme-Product类型模型如SEPDNN与EnzyPick进一步将产物信息纳入,从而扩展到完整反应结果的预测。与此同时,面向特定酶家族的混合机器学习管线也显示出实用性,例如针对细菌腈水解酶的模型将对接特征、理化描述符与集成学习器结合用于功能筛选,体现了多源特征融合在家族内筛选中的优势。
除上述较为主流的功能预测任务外,还有一些与实验落地密切相关的蛋白性质值得关注。例如可开发性将表达、溶解性与稳定性信息综合为更适合后续酶工程的指标。表达能力同样是实验验证的关键前提,相关研究采用迁移学习构建跨物种的模型集合,例如为88个物种分别建立模型并在大肠杆菌表达体系中获得实验验证,而表达能力领域的更系统综述也已在近期文献中给出。整体来看,多类机器学习架构正在向更全面且更可解释的功能注释框架汇聚。基于机器学习的注释模型因此提供了可扩展且准确的酶功能预测策略,作为现代酶挖掘工作流的基础工具,能够跨越不同功能层级与数据模态实现快速筛选与候选优先级排序,并在序列多样性更高的数据集中加速新型生物催化剂的发现。

图2 | 展示了用于酶功能注释的机器学习框架。 该图从概念层面对基于蛋白序列数据或蛋白结构开展酶功能表征的机器学习策略进行了概览。左侧展示酶学分类号分类模型,用于在四级层级体系中预测酶功能,并逐级刻画更具体的生化活性与底物-产物关系。中间展示基因本体术语预测,通过融合分子功能、生物过程与细胞组分等注释,并借助纳入结构、进化与本体信息的深度神经网络实现更完整的功能语境建模。右侧展示底物特异性模型,通过二分类或多分类预测估计酶-底物相容性,从而支持对候选酶进行理性排序并优先推进实验验证。整体而言,这些模型构成现代数据驱动酶挖掘流水线的核心,使功能注释更具可扩展性、高通量能力与生物学可解释性。
2.4 用于预测酶学性质的机器学习模型
机器学习模型在预测关键酶学性质方面的重要性持续提升,这些性质对于理解酶功能以及优化其在工业场景中的应用至关重要,包括动力学参数、嗜热性、最适pH、溶解性及其他理化特征。相较传统生化测定,机器学习方法提供了可扩展的高通量替代方案,显著增强了酶挖掘流程,使得能够从大规模且高度多样的序列数据集中快速识别并优先筛选候选生物催化剂。这类模型可利用多源输入,例如氨基酸序列、蛋白结构信息与环境变量,并覆盖从常规回归模型到先进神经网络与基于transformer系统的多种架构,从而适配不同数据规模、任务复杂度与应用需求。
在众多可建模的酶学性质中,用于刻画催化效率的动力学参数最为经典且研究最深入,尤其是米氏常数
嗜热性预测同样受益于机器学习进展。传统的支持向量机与随机森林等分类器在特征工程支持下即可获得较强性能,通常在从UniProt、PDB或基于生长温度信息构建的数据集中区分嗜热、中温与嗜冷酶,准确率常超过90%。例如有研究通过简化氨基酸字母表并结合自协方差特征将准确率提升至98.2%,优于基于简单描述符的早期分类器。随后,如ThermoProt等多分类预测器将温度适应性划分扩展为四类,包括嗜冷、中温、嗜热与超嗜热,并在不同二分类任务上报告约74%到87%的准确率。集成方法如SAPPHIRE通过融合多种学习算法提升准确性与泛化能力,在独立测试集上可达到约94%的准确率,并已在定向酶挖掘中显示效果,例如TAxyl从反刍动物瘤胃微生物群中识别到新的嗜热木聚糖酶,用于促进生物过程优化。深度学习框架如DeepTP与DeepPPThermo引入注意力机制的LSTM与CNN模块以捕获层级序列模式,在嗜热与中温酶分类上可达到94%到96%的准确率,并通过非冗余序列构建与身份过滤减少同源偏差,在独立测试集上完成评估。近期基于transformer的预训练蛋白语言模型逐渐成为该方向的先进方案,例如ProLaTherm利用ProtT5的上下文嵌入获得更优表现,在准确率上达到约97%,而ThermoFinder通过将多种预训练嵌入以meta-XGBoost集成进一步将准确率推进到98.9%以上。
在嗜酸与嗜碱酶分类方面,早期研究多采用集成框架并结合结构与理化特征。以随机森林为例,在UniProt与PDB的非冗余蛋白上训练可达到90.7%的准确率与0.96的AUC,说明仅依赖序列信息也能区分嗜酸与嗜碱酶。也有工作成功预测某海洋脂肪酶的嗜碱偏好并获得后续实验验证,体现了机器学习预测在极端酶发现中的指导价值。进一步的工具如AcalPred与piSAAC分别通过支持向量机与深度神经网络推进pH相关预测。AcalPred在来自BRENDA与UniProt、具有实验验证最适pH的数据集上训练,在jackknife交叉验证下准确率可达96.7%,为大规模筛选提供了较易用的平台。piSAAC通过引入分裂氨基酸组成以捕获序列基序与pH偏好之间的关联,其深度神经网络版本在平衡的酸性与碱性酶数据集上,在两个独立测试集中分别达到98.0%与97.9%的准确率,并获得最高约0.98的AUC。
对最适温度
溶解性预测也经历了从传统机器学习到深度学习与图模型的演进。早期工具如Protein-Sol、SoDoPE与SoluProt多基于大肠杆菌表达数据集训练,在55%到65%的准确率范围内,为后续提高重组表达成功率的模型奠定基础。随后深度学习模型DeepSol、DSResSol与DDcCNN引入带残差或空洞连接的CNN架构以捕获与溶解性相关的序列特征,将预测准确率提升至约78-80%,相较早期方法实现明显改进。基于transformer的NetSolP在大规模蛋白序列语料上训练,使溶解性预测超越单一大肠杆菌表达体系并在独立数据集上表现出较强泛化,其部分预测结果也获得实验验证。更近期的图方法如GraphSol与HybridGCN将接触图信息纳入以捕获结构语境,在eSol基准上获得超过0.87的AUC。总体而言,这些机器学习模型正在改变从生物数据推断酶学性质的方式,其与酶挖掘平台的集成支持快速的数据驱动筛选,并有助于面向特定工业、环境与生物医学应用需求定制功能性酶资源。

图3 | 展示了基于机器学习的酶理化性质与动力学性质预测。 左上部分展示对
2.5 酶挖掘中机器学习的当前局限
尽管机器学习在酶挖掘领域发展迅速,仍存在若干关键挑战,限制了预测模型的可扩展性、可解释性与泛化能力。其中最普遍的问题之一是实验偏倚,即公共数据集中被充分表征的酶占比过高,导致数据分布严重不均衡。这种不平衡会使模型学习更偏向主流酶家族,从而削弱其在研究不足或全新蛋白上的表现。更值得关注的是,大量错误注释甚至可能破坏家族特异性预测器的可靠性,造成错误的功能赋值,并且不同数据库之间的注释不一致与交叉引用错误还可能导致条目间被错误关联,进一步放大数据噪声对模型训练与评估的影响。
在功能分类任务中,多数模型主要依赖序列表示,难以充分刻画酶功能所具有的多模态本质,因为真实催化行为往往由底物、产物、辅因子与环境因素共同决定。只有少数较新的模型显式引入底物或产物信息,而能够直接学习催化理化决定因素的工作仍然有限。与此同时,缺乏标准化基准数据集也限制了模型评估与对比的统一性与严谨性,不少研究不得不使用最初为其他任务整理的数据集,例如变体效应预测相关数据,从而导致对完整酶功能空间的覆盖不足。对于基因本体术语预测,本体层级结构的复杂性进一步加大难度,术语之间存在层级依赖与跨域关联,需要更先进的神经网络架构与分层损失设计才能有效捕获。加之大规模嵌入表示与注意力机制带来的训练与部署开销,在实际应用中仍然是不可忽视的计算负担。
在底物特异性预测方面,模型对稀有或未见底物的泛化仍然困难。数据集往往偏向工业相关的酶-底物组合,容易掩盖具有多底物倾向或新颖催化谱的酶。注释不一致或不完整同样会降低模型可靠性,尤其是缺少负样本或底物范围未被系统记录时,会使学习到的“相容性边界”变得模糊,并影响真实筛选场景下的稳定性。
对于
在热稳定性与嗜热性预测领域,训练数据往往偏向常温酶或来自极地与热液环境的极端微生物酶,从而形成多峰分布并增加泛化难度。模型也存在学习到分类学或生态学“代理信号”的风险,而非真正的热适应生物物理决定因素。类似的数据集偏倚与分类群覆盖不足也影响嗜酸与嗜碱酶分类,许多分类器仅在少数酶家族或微生物宿主上训练,导致其向宏基因组数据迁移时的可转移性下降。此外,仅在已注释序列上训练的模型,在缺乏近缘同源物的全新序列上往往表现更差,而这恰恰是多数预测任务中常见的应用场景。
为缓解这些局限,后续研究通常强调三个优先方向:其一是整理更大规模、更具多样性且更平衡的数据集,覆盖更多酶类别与实验条件;其二是加强多模态数据融合,将结构信息、表达体系与环境元数据等纳入统一框架;其三是发展在低数据条件下依然可用、同时具备可解释性、效率与可迁移性的机器学习架构。将深度嵌入与传统分类器结合的混合建模思路,以及基于注意力的解释框架,被认为是值得推进的方向。随着这些问题逐步得到解决,机器学习模型在规模化、准确且可解释的酶发现与表征中将更具不可替代性。
2.6 面向酶挖掘的数据驱动框架:代表性案例示例
机器学习策略能够优先筛选并发现具有特定催化功能的酶,从而在一定程度上缓解传统筛选方法的固有限制,例如对可培养生物的依赖、通量不足以及注释偏倚等问题。本节通过若干案例展示机器学习模型与酶挖掘流水线的成功融合,重点涉及塑料降解、真菌毒素解毒、萜烯生物合成以及噬菌体裂解酶识别等应用方向。这些实例共同说明,机器学习可以快速检索海量序列资源,挖掘新的酶学功能,并有效引导后续实验验证。
在塑料降解场景中,有研究构建了基于支持向量机的模型用于识别PET水解酶,并在整理的实验验证序列数据集上训练,表现出较强的预测能力,从而促进了具有潜在PET降解活性的候选酶检出。在此基础上,也有工作采用隐马尔可夫模型并引入结构域特异性基序以提升特异性与功能注释能力,进一步提高了PET水解酶预测的准确性。更近期的研究提出了人工智能驱动框架,将蛋白语言模型与生成式设计结合以加速塑料降解酶的发现与工程化,通过对预训练模型进行面向PET特异性的微调,识别出超过6000个候选水解酶,其中许多在计算评估中显示活性,且平均分类准确率超过89%,体现出机器学习在扩展PET生物催化剂发现方面的前沿作用。进一步扩展到更广泛的塑料降解酶类别,也有研究采用基于XGBoost的分类器识别可降解多种聚合物的酶,包括聚乙烯与聚苯乙烯等,模型获得较高预测准确率并用于提名实验测试候选。随后相关框架被用于发现一种新的酯酶,其实验结果证实具有聚苯乙烯微塑料降解活性,从而验证了机器学习引导发现的实际可用性。
在真菌毒素降解酶方面,有研究提出PU-EPP模型,采用正-未标注学习框架预测酶-底物相互作用,并将目标聚焦于赭曲霉毒素A与玉米赤霉烯酮。该模型在包含超过17万种酶以及60多万对酶-底物组合的数据集上训练,并通过加权采样策略缓解类别不平衡问题。预测结果显示,排名前20的酶中有15种被实验证实可降解目标毒素,其中6种在3h内实现超过90%的降解率,反映出模型在精确性与功能相关性上的优势。
萜烯合酶的发现案例展示了蛋白语言模型、结构预测与机器学习分类之间的协同效应。相关工作利用整理的萜烯合酶序列与嵌入表示训练随机森林分类器,在萜烯合酶识别与底物特异性预测上均获得较高精度。基于Uniref50数据库开展实验验证时,该流程筛选出17个新的候选萜烯合酶,其中7个被证实具有酶活性,表明该类数据驱动流程能够有效支持从大规模序列库中挖掘功能性新酶。
在噬菌体裂解酶领域,有研究开发DeepMineLys模型,采用卷积神经网络并结合双轨嵌入表示,同时捕获理化特征与序列衍生特征。该模型应用于人类微生物组数据集时,在独立验证集上取得84%的F1-score。由624个预测的非冗余裂解酶候选中,有11个被证实具备酶活性,其中一条变体的活性达到鸡蛋清溶菌酶的6.2倍,进一步体现出机器学习在高效挖掘高活性候选方面的能力。
总体来看,这些案例表明机器学习正在推动酶挖掘从劳动密集且低通量的流程转向数据驱动、可预测且可扩展的框架。通过整合多样化数据集、复杂模型架构与严格实验验证,能够在广阔序列空间中识别功能新颖的酶。随着多模态学习、迁移学习与可解释人工智能等方向的持续演进,酶发现的边界有望进一步快速扩展,并为工业、制药与环境挑战提供更强的生物催化工具体系。

图4 | 展示了机器学习引导的自主酶挖掘与优先级排序框架。 该流程起始于定向酶库构建,通过结构、功能与序列相关查询从基因组与宏基因组数据库中组装候选序列集合。随后在序列层面与结构层面进行表征,例如通过聚类、系统发育映射或序列相似性网络实现多样性可视化,并识别潜在候选簇。预训练蛋白语言模型用于生成嵌入表示,并将其投影到潜在空间,以检测尚未充分探索或在功能上显著分化的区域。在潜在空间中的聚类可支持候选扩展,并指导功能注释预测模型的应用,例如酶学分类号、基因本体术语与底物特异性,以及性质估计模型的应用,例如
2.7 面向自主酶发现的机器学习引导挖掘平台
本节提出一种模块化的机器学习引导酶挖掘策略,通过整合表示学习、功能分类与性质估计来支持自主化的候选发现,并同时讨论实现全自动酶挖掘工作流所必须解决的关键问题,包括数据质量、可解释性与泛化能力等。
为应对传统酶挖掘流程的局限,并缓解基于机器学习预测策略中暴露出的挑战,相关工作提出了一个集成且模块化的框架,利用机器学习进展在基因组与宏基因组数据集中实现可扩展的数据驱动功能酶发现(Figure 4)。该框架不仅强调提升预测准确性与泛化能力,也强调增强候选优先级排序、促进实验设计,并与酶工程流程形成更顺畅的接口。流程首先生成定制化酶库,依据结构、功能或序列标准对蛋白数据库及已注释的基因组与宏基因组数据集进行查询,并结合基因组挖掘工具与领域特异过滤器提取与既定生物催化目标一致的酶序列集合。将该策略应用于宏基因组时,可触达不可培养或嗜极微生物来源的序列资源,从而利用尚未充分开发的巨大酶多样性。序列检索还可通过同源搜索、结构域架构信息,以及由结构预测或宏蛋白组学证据增强的人工智能整理资源加以扩展。
在酶库构建之后,通常需要对序列集合进行表征,以序列相似性网络、系统发育树与基于图的聚类等方法实现多样性可视化、识别进化关系并降低大规模数据中的冗余。这类网络表示有助于评估已知酶空间的覆盖情况,并定位潜在的功能离群点或尚未探索的簇,这些区域可能蕴含新活性。为进一步提升对非显而易见或功能多样候选的发现能力,近期研究引入由预训练蛋白语言模型生成的嵌入表示并构建潜在空间表示。与传统序列比对不同,这类嵌入能够编码更高阶的序列-功能关系,使微妙相似性与进化模式在降维流形中显现。潜在空间投影可通过相似性检索、基于密度的聚类或流形探索实现候选扩展,从而揭示位于序列景观中稀疏区域或功能含混区域的酶。该类表示在经典比较分析与现代机器学习之间搭建桥梁,为规模化探索酶多样性提供统一框架。
潜在空间中的聚类在识别训练数据中代表性不足、或与已知功能类别距离较远的序列群方面具有关键作用,可用于发现可能具有新颖或多底物倾向活性的酶群,并将其视为生物催化创新的储备。候选扩展与聚类之前或之后,酶库会被送入一组功能分类模型,包括酶学分类号、基因本体术语与底物特异性预测等。此类分类器通常基于transformer、图神经网络与混合模型等多种架构,能够提供分层且多维的注释,从而在不同生化领域中实现快速筛选。与此同时,一组基于机器学习的估计器用于预测最适温度、最适pH、热稳定性、溶解性以及动力学参数,例如
最终候选的确定通常综合考虑潜在空间覆盖度与预测性能。通过优化候选集合的多样性与预测功能,所选酶面板可在统计意义上提升实验成功概率。入选候选随后进入体外验证流程,包括表达、纯化与生化测定等。当实验数据可用时,结果会回流到流程中用于改进模型性能并指导下一轮迭代,从而形成闭环反馈体系以增强鲁棒性与适应性。将贝叶斯推断与高斯过程结合的主动学习框架能够在探索与利用之间取得更好的权衡,在蛋白设计中既推动候选优化也同步改进机器学习模型,并已在多种药物发现工作流中实现与基准验证,显示出数据高效优化的潜力。
该机器学习引导策略也适合与酶工程工作流深度耦合。通过该流程发现的候选可能并不具备直接应用所需的全部理想性状,但往往包含可通过理性或数据驱动优化进一步释放的潜力。例如,对已预测能够催化目标反应但热韧性不足的酶,可进一步通过突变、结构重设计等方式进行热稳定化改造。由此,酶挖掘与酶工程可在同一机器学习增强的发现架构中作为互补过程实现衔接。
2.8 机遇与仍待解决的挑战
将机器学习引入酶挖掘流水线,代表了在发现与表征具有定制化性质的生物催化剂方面的重要进展。基于同源性与人工整理的传统策略虽然积累了大量经验,但在解析远缘进化关系以及应对不断扩张的基因组与宏基因组数据规模方面仍受限制。相比之下,机器学习能够在复杂数据空间中提取功能特征,形成可预测的框架,并推断酶活性、特异性与理化性质,从而为面向自主化的酶挖掘系统打开路径。但要实现完全自主的机器学习引导酶挖掘,仍同时存在显著机遇与技术挑战。
一项突出的机遇在于,机器学习能够以前所未有的规模优先排序候选序列,依据其呈现目标生化属性的可能性进行筛选,例如底物范围、催化周转、热稳定性与最适pH等。通过融合序列、结构与分子描述符等形成的多模态表示,这些模型可支持面向工业、制药与环境应用的定向选择。已有案例显示,预测框架能够识别后续被实验证实的新酶;而以底物为中心的特征也可提升功能分辨率,推动对研究不足酶家族与微生物类群的探索深度。
与此同时,当前模型仍受到数据可得性与数据偏倚的显著限制。训练集往往由少数研究充分的生物体主导,导致在系统发育距离较远的酶上泛化能力下降。该偏倚在底物特异性建模中尤为突出,因为可靠的负样本极其稀缺。正-未标注学习策略提供了可行方向,但仍需要防止过拟合与数据泄漏等问题。另一方面,对经过整理但高度冗余的数据库的依赖,可能会固化知识缺口,使研究持续聚焦于典型功能而忽视机制新颖或生态相关的催化活动。
另一前沿挑战是将蛋白的静态表示与其动态行为连接起来。若能将构象柔性、变构运动与能量涨落纳入机器学习框架,预测模型的真实性有望显著提升。近期方法例如METL在生物物理模拟数据上对transformer架构进行预训练,在低数据条件下的热稳定性与催化活性预测中显示出更强泛化能力。类似地,AlphaFlow与ESMFlow等基于flow的生成模型能够在给定序列条件下采样构象集合,以相较全分子动力学更高的计算效率近似蛋白运动。ATLAS与mdCATH等公共资源提供了原子尺度柔性数据,可作为物理感知蛋白语言模型的先验信息。将这些动态信息进一步嵌入主动学习或自驱动实验框架,有望使自动化流水线在候选选择上同时考虑预测功能与结构可塑性,从而更接近闭环实验自治。
可解释性同样是并行存在的挑战。尽管transformer与图模型显著提升了预测准确率,其高维嵌入往往缺乏生物学透明度。部分模型的注意力机制能够提供局部的残基级线索,但将这些信号系统性转化为机制理解的统一框架仍然缺失。因而,发展在预测能力与可解释性之间取得平衡的混合架构,并使其能够与实验反馈无缝对接,对于构建可信的自主发现系统至关重要。
面向上述目标的推进通常依赖多个互补方向的协同。一方面,扩大并多样化训练数据集,尤其通过大规模宏基因组注释提升覆盖度,可增强模型鲁棒性并降低分类群偏倚。另一方面,通过多任务与多性状学习在同一框架中联合预测功能、动力学与稳定性,可能提升预测一致性与数据利用效率。进一步将环境、基因组与结构元数据融入预测框架,有助于筛选不仅在功能上满足需求,同时在实验上可操作且更易优化的酶。随着深度学习、高通量实验自动化与数据中心化模型改进的融合,酶挖掘正逐步走向自驱动的发现闭环,在此类自主生态中,预测模型不再只是分类或排序工具,还将主动引导合成、测试与再设计循环。因而,在数据质量、可解释性与基准评测等方面解决剩余问题,对于释放机器学习驱动酶挖掘在拓展可获得功能酶与工业稳健生物催化剂版图上的潜力至关重要。
3 总结
将机器学习融入酶挖掘工作流正在重塑生物催化剂的发现与功能表征方式,并在工业、环境与生物医学等领域持续扩展影响力。当前的机器学习模型已能够支持酶学分类号分类、基因本体术语注释、底物特异性推断,并进一步预测动力学参数、溶解性与稳定性等关键性质。从经典算法到深度神经网络,再到蛋白语言模型,相关方法显著加速了具有定制化性状酶的识别与优化。下一阶段的核心方向在于机器学习、高通量实验与自主决策系统的汇聚,从而推动酶发现从“更快的计算筛选”迈向“更自主的闭环探索”。
在这一趋势中,新兴的AI科学家范式逐渐成形,即由具备行动能力的智能体框架将大语言模型与专用计算工具结合,并开始自动化研究设计与数据解读。例如,Virtual Lab与ProtAgents展示了面向蛋白发现的多智能体协作,而Enzyme Co-Scientist与Paper2Agent则面向数据抽取与文献挖掘,通过自动化信息整理提升模型训练与数据集构建效率。与此同时,将智能体系统与大语言模型嵌入科学编程环境也在推动定制化模型开发的普及化,这对数据稀缺的生化领域尤为关键,因为强调机制或家族特异的模型在不少场景中往往优于通用预测器。
并行发展的是自驱动实验室,其将机器人自动化与智能实验设计连接起来,能够自主执行实验、分析结果并在闭环中迭代,从而显著缩短设计-构建-测试-学习周期。SAMPLE等工具展示了高度自动化的蛋白工程工作流,而更广泛的综述也强调自驱动实验室在分子发现中的作用正在增强。这类平台的有效运行依赖稳健的实验自动化、完善的元数据记录,以及通过贝叶斯优化与主动学习实现的自适应规划,从而在更大规模上实现可复现的生化设计空间探索。
随着自动化程度提升,标准化基准评测的重要性也在上升。由社区推动的数据集,例如EC-Bench、CARE与PEER,为不同架构与不同数据条件下的公平比较与可量化进步提供基础。总体而言,酶挖掘的未来将由智能计算与自主实验的协同融合所定义。当预测精度、可解释性与机器人实验精度不断收敛,酶发现有望从以人为主导的流程逐步转变为由AI协调的生态系统,能够以前所未有的规模提出假设、完成测试并持续学习。由此,机器学习引导的酶挖掘将不再只是辅助技术,而可能成为下一代生物技术的重要驱动范式,加速将分子层面的洞见转化为跨越“酶宇宙”的功能性创新。