ACS Cent. Sci. 2025 | 利用大型语言模型中的提示工程加速化学研究

今天介绍的这项工作是一篇发表于 ACS Central Science 的前瞻性综述,系统梳理了如何通过提示工程充分释放大型语言模型在化学研究中的潜力。文章指出,尽管LLMs已在分子性质预测、文献分析和实验设计等方面展现出巨大优势,但直接使用仍容易产生幻觉、推理不稳以及数值预测不可靠等问题。作者以零样本、少样本、链式思维、ReAct、RAG和元提示等方法为主线,结合金属有机框架、快速充电电池和自主化实验等实例,展示了提示工程在提升推理能力、降低错误率和增强可控性方面的关键作用。文章强调,相较于单纯依赖更昂贵的新模型,合理的提示设计往往能带来更显著的性能提升。整体而言,该工作为化学研究者理解并高效利用LLMs提供了清晰路径,也为未来多模态与自主化化学研究奠定了方法学基础。

获取详情及资源:
0 摘要
利用大型语言模型(LLMs)如GPT的人工智能(AI)已经深刻改变了多个领域。近年来,LLMs也开始进入化学研究领域,即使是不具备编程背景的研究者也能够加以使用。然而,直接应用LLMs可能会导致“幻觉”问题,即模型生成不可靠或不准确的信息,这一现象在化学研究中尤为突出,原因在于可用数据集有限以及化学文献本身的高度复杂性。为应对这一挑战,研究者提出了提示工程,通过以结构化且清晰明确的方式向LLMs传达人类意图,同时提升模型的推理能力。尽管如此,提示工程在化学领域仍然远未得到充分利用,许多化学研究者对其原理和技术尚不熟悉。该研究作为一篇前瞻性综述,系统探讨了多种提示工程技术,并结合实例展示其在广泛研究方向中的应用,包括金属有机框架、快速充电电池以及自主化实验等。同时,还阐明了当前基于LLMs的提示工程所面临的局限性,例如结果不完整或存在偏倚,以及闭源模型所带来的约束。尽管LLMs辅助的化学研究仍处于早期阶段,但提示工程的引入将显著提升研究结果的准确性与可靠性,从而加速化学研究的发展进程。
1 引言
大型语言模型(LLMs)是一类旨在理解和生成人类语言的人工智能(AI)技术,通过在大规模文本数据集上的训练,能够执行多种任务。近年来,LLMs已成为多个领域中的变革性工具,涵盖自然语言处理、编程、生物学以及化学研究等方向。凭借对分子性质的预测能力、对实验设计的优化能力以及对海量文献的分析能力,LLMs在提升化学领域科学发现效率方面展现出巨大潜力,尤其对缺乏编程背景的化学研究者而言更具吸引力。不同于传统的人工方法,LLMs能够以更具成本效益的方式高效处理重复且耗时的任务,例如文献的整理与总结。此外,依托其强大的学习与生成能力,LLMs在提供具有建设性的科学见解和实验指导方面具有显著潜力,从而加快研究进程与决策效率。与通常针对单一任务设计的传统模型相比,LLMs具有更高的灵活性,并在多种任务中展现出更优的性能,其大规模训练数据也进一步增强了其应对多样化任务的能力。同时,友好的用户交互界面使得缺乏计算机科学背景的化学研究者也能轻松与其交互。
近期,多种前沿LLMs取得了显著进展。其中,基于强化学习和思维链训练的模型在推理能力和多项基准测试中表现出领先优势。然而,将这些模型直接应用于化学研究仍面临诸多挑战。一个核心问题在于LLMs缺乏足够的领域专属知识,这限制了其提供可靠实验指导的能力。此外,LLMs容易产生“幻觉”,即由于依赖通用语言模式而非具备领域语境准确性的专业信息,生成不准确或具有误导性的内容。这一问题在化学领域尤为突出,因为化学知识本身高度复杂,可用实验数据相对稀疏,同时分子式等非结构化表达形式也使模型在缺乏专门预训练的情况下难以准确处理。
为应对上述挑战,提示工程应运而生。提示工程通过增强LLMs对用户意图的理解能力,释放模型潜力,使其能够更有效地将人类的研究设想转化为现实成果。提示工程不仅能够引导模型正确完成用户需求,还能帮助模型建立对特定领域底层知识结构的整体理解。目前,提示工程已发展出多种技术形式,可根据提示与模型之间的交互方式划分为简单提示、链式提示、生成式提示和集成式提示四类。当前,提示工程在化学与材料研究中的应用已初见端倪,例如用于文本与图像挖掘、合成路线预测与优化、电池研究中的老化行为与离子电导率预测,以及药物发现和材料设计中的自动化任务处理。这些研究不仅涉及文本处理,还融合了具体的化学实验与数据分析,为化学研究者提供了有价值的指导与实践便利。
尽管如此,提示工程在化学领域仍未得到充分利用,仍有相当一部分化学研究者仅对其基本原理和重要性有所了解。基于这一现状,该研究总结了当前已在化学领域应用或具有潜在应用前景的多种提示工程技术,并通过对其原理、实际案例及局限性的系统分析,阐述这些技术如何提升LLMs在化学推理与结果准确性方面的表现。该研究作为一篇前瞻性综述,旨在为提示设计的进一步优化以及LLMs在化学领域中的广泛融合奠定理论与实践基础。

图1|大型语言模型在化学研究中的提示工程方法示意图。
2 提示工程方法
提示工程,又称为上下文提示,是通过设计与优化输入提示来与大型语言模型进行交互,从而获得最有效输出的一种方法。提示工程的发展与LLMs本身的进步密切相关。随着训练数据规模与模型参数量的持续增长,以及先进训练技术的出现,LLMs的整体性能得到了显著提升。这种方法避免了重新训练模型所带来的高昂成本,使大规模模型能够被更加高效地应用。因此,提示工程在促进LLMs与化学研究之间的有效交互方面具有关键作用。
2.1 零样本与少样本提示
零样本提示和少样本提示是两种常见的提示策略,在引导模型行为方面各有侧重。零样本提示在不提供示例的情况下直接给出任务,主要依赖模型自身的泛化能力;而少样本提示则通过提供少量输入-输出示例来说明任务形式,帮助模型理解任务的具体要求。对于上下文信息不足、模型难以有效利用既有知识的复杂任务而言,引入具有代表性的示例有助于模型把握任务的细微差别,从而提升其在相似问题上的输出准确性与相关性。
近期,有研究将零样本与少样本提示应用于金属有机框架材料合成文本的挖掘。通过明确指定输入文本和期望的输出格式,成功将MOF实验部分转化为结构化表格,准确提取了化合物名称、金属源、有机配体、反应温度以及反应时间等关键合成参数。同时发现,在少样本提示策略中提供四到五个简短示例,相比零样本方式更有助于模型识别合成段落的特征。
另有研究系统评估了少样本提示在多项实际化学任务中的表现,包括名称预测、性质预测和反应预测等。例如在性质预测任务中,研究者利用GPT-4比较了零样本、少样本(k=4)和少样本(k=8)三种策略在BBBP、BACE、HIV、Tox21和ClinTox五个数据集上的预测准确率。总体而言,随着示例数量从k=0增加到k=4再到k=8,模型在BBBP和ClinTox数据集上的准确率呈现提升趋势。然而在HIV和Tox21数据集上,零样本提示的表现反而优于少样本策略。
这些结果凸显了示例选择的重要性。高质量且数量合适的示例能够显著增强模型的推理能力,而不恰当的示例则可能干扰模型的推断过程。因此,在化学研究中有效应用少样本提示策略,需要研究者进行审慎设计与权衡。

图2|零样本与少样本提示的示意图及测试结果。 (a)用于金属有机框架材料合成文本挖掘的零样本与少样本提示的简单示例。(b)由ChatGPT生成的表格,包含MOFs合成过程中的全部参数。(c)基于SMILES字符串表示的分子结构进行渗透性质预测的示例。(d)GPT-4在分子性质预测任务中的准确率,其中k表示示例数量。BBBP、BACE、HIV、Tox21和ClinTox代表五个不同的数据集。
2.1 链式思维提示
尽管大型语言模型在基础知识检索和简单文献分析方面表现出较强能力,但在面对复杂科学推理任务时仍存在明显局限。研究表明,模型出现多种失败情形往往并非由于缺乏领域专属知识,而是缺少能够引导推理过程的稳健推理框架。为解决这一问题,Wei等人提出了链式思维提示方法,该方法在传统少样本提示的基础上,将结构化、逐步展开的推理过程嵌入提示之中。通过示例展示清晰的逻辑步骤,链式思维提示引导模型按照既定推理路径展开思考,从而生成更加连贯且逻辑严密的回答。
在此基础上,Kojima等人进一步提出了零样本链式思维提示。这一变体不依赖具体示例,而是通过诸如“让我们一步一步思考”这样的通用指令,引导模型完成推理过程,使其在缺乏示例的情况下也能够执行推理任务,从而拓展了适用场景。目前,一些先进的大型语言模型已在训练阶段引入链式思维机制,并展现出较强的推理能力,但它们并非专门的逻辑引擎,对于涉及多步逻辑或高度抽象思维的复杂问题仍存在能力边界。
链式思维提示在化学问题中的有效性已有多项验证。例如,在采用零样本链式思维提示进行平衡常数

图3|链式思维提示与自动提示工程的示意图。 (a)采用零样本或少样本链式思维提示的示意图。(b)利用零样本链式思维提示解决复杂化学问题(平衡常数
2.2 自动提示工程
在多任务和多模型应用场景中,人工设计和优化提示不仅成本高昂,而且往往受到固定认知模式的限制,进而制约模型整体性能。为充分挖掘大型语言模型的潜力,Zhou等人提出了自动提示工程框架,用于自动生成并优化提示,以提升模型在特定任务上的表现。该方法使模型能够高效探索多样化的提示形式,从而增强其在不同场景中的适用性与有效性。同时,自动化的提示优化过程通过迭代修正提示内容,有助于减少人为错误并提升预测准确性。
目前尚未发现自动提示工程在化学研究中的直接应用实例,但已有部分工作在思路上与其相近。例如,有研究提出了用于金属有机框架合成与优化的提示工程框架,在提示设计、迭代反馈、任务分解以及自动化目标等方面与自动提示工程存在显著共通之处。然而,该框架仍依赖人工设计提示和反馈机制,自动化程度有限。未来若能引入自动提示生成与优化技术,有望进一步提升此类框架的效率和可扩展性,从而推动大型语言模型在化学发现中的更广泛应用。
2.3 推理与行动协同提示
通用提示工程方法在处理外部交互时能力不足,而专门面向外部交互设计的方法又常常缺乏强推理能力,这在化学等既需要严谨推理又依赖外部工具的领域尤为突出。例如,模型可能需要根据实验结果调整化合物配比,或通过检索引擎获取额外的化学信息。为此,Yao等人提出了推理与行动协同提示方法,使模型在推理过程中能够主动调用外部资源,从而同时实现系统化推理与有效交互。
与链式思维提示不同,推理与行动协同提示在示例中不仅包含详细的推理步骤,还明确列出了模型在推理过程中执行的具体行动,如检索或查询操作。通过整合外部工具,该方法能够优化化学研究流程,并支持材料设计和复杂化学任务的自动化,在数据生成、工具选择和反馈循环方面展现出显著优势。已有研究基于这一思路构建了面向金属有机框架研究的智能系统,该系统在接收到问题后,会规划并选择合适的工具用于数据获取、性质预测和结构生成,并对生成结果进行评估与迭代优化。例如,在生成具有最大比表面积的结构任务中,模型初始生成的结构比表面积分布较为分散,经过多轮优化逐渐向高值区域收敛,最终得到预测比表面积为

图4|ReAct与RAG的示意及应用。 (a)基于推理与行动协同提示原理构建的ChatMOF框架示意图。(b)初始结构与生成结构的最大比表面积分布,以及通过ChatMOF并结合优化数据生成的具有最大比表面积的MOF结构。(c)检索增强生成方法在快充电池研究中结合大型语言模型的应用示意图。
2.4 检索增强生成
为应对知识密集型任务,Lewis等人提出了检索增强生成方法,通过引入外部知识来降低模型产生幻觉的风险。该方法将用户输入与外部知识库映射到同一向量空间中,通过相似度检索获取最相关的信息,并将其整合进提示中以增强模型的知识基础。与主要依赖内部推理的推理与行动协同提示不同,检索增强生成通过依托经验证的外部知识来保障回答的可靠性。若将前者比作依靠逻辑推理破案的侦探,后者则更像是通过查阅权威书籍来解答问题的图书管理员。
在具体应用中,检索增强生成首先从预定义的知识库中检索相关文献或数据,并将其转化为向量表示,随后将检索结果与用户问题结合,构建完整提示输入模型。借助增强后的上下文信息,模型能够生成更具针对性的回答。该框架的优势在于能够快速调用前沿文献和动态更新的知识库,提供高质量且可追溯的回答,并支持分层次的响应结构。例如,当用户提出关于电池负极技术的宽泛问题时,系统可以从总体概述逐步深入到具体材料、方法及相关参考文献,从而显著提升研究效率。

图5|元提示的示意及应用。 (a)元提示的结构示意图。(b)Coscientist在化学合成规划任务中的能力展示,包括不同大型语言模型在化合物合成方面的对比。(c)Coscientist的工作流程示意图。(d)两个生成的硝基苯胺合成示例。
2.5 元提示
近期,研究人员提出了元提示策略,通过协调多个相互独立的专家模型来应对复杂任务。其核心思想是由一个中心控制模型将复杂问题拆解为多个子任务,并将这些子任务分配给具备不同专长的专家模型,再逐步整合各方结果形成最终解决方案。该方法充分利用多专家体系的多样性与专业性,提升了模型在复杂问题处理中的自主性与灵活性。尽管中心模型能够整合各专家的见解,但专家之间并不直接通信,从而保证中心模型始终处于核心控制地位。
已有研究展示了一种基于多大型语言模型的智能体系统,能够利用元提示思想设计并执行复杂的科学实验。该系统在化学合成规划中展现出较高的准确性与可靠性。例如,在硝基苯胺的合成任务中,规划模型将任务拆解为多个子步骤,并咨询化学专家模型和检索模型,成功避免了实验上不可行的直接硝化路径,同时提出了更优的反应路线。在对乙酰氨基酚的合成中,该系统还提供了涵盖原料选择、反应条件优化和实验流程执行的完整指导。这些案例表明,元提示策略在化学合成规划中能够显著提升实验成功率和整体效率。然而,由于封闭系统的限制,中心模型在处理表现不佳的任务时可能出现信息传递不足的问题,仍需进一步研究与优化,以探索其在化学领域中的有效应用方式。
表1|大型语言模型中多种提示工程方法的总结

3 总结与展望
总体而言,提示工程能够显著提升大型语言模型的准确性与推理能力,从而在金属有机框架、有机合成、电池研究以及自主化实验等多个方向加速化学相关研究。表1对常见提示工程方法的基本原理、特点及应用场景进行了归纳。在熟悉这些基础方法之后,还可以进一步采用图提示、定向刺激提示等更前沿的策略,以应对更加专业和复杂的化学任务,从而推动科学发现的进程。
尽管如此,利用大型语言模型辅助化学研究仍面临来自模型本身与化学学科的双重挑战。模型层面一个广为人知的问题是“幻觉”的产生,即模型输出不准确或缺乏事实依据的信息。提示工程在一定程度上可以缓解这一问题。例如,少样本提示通过示例帮助模型理解期望的交互模式,链式思维提示通过调动模型的内部知识促进更深入的推理,而元提示则能够整合来自不同专家的反馈,进一步降低幻觉风险。另一项与人工智能相关的局限在于数值预测任务。尽管大型语言模型在基于文本的推理与预测方面表现突出,但在数值预测,尤其是在未经过微调的情况下,往往难以获得理想结果。一种可行的缓解方式是通过提示设计,将连续数值预测转化为离散区间预测,例如预测性质范围而非给出精确数值。这种方式能够降低连续数值生成的复杂性,更贴近人类推理习惯,从而提升模型表现。此外,也可以引入如ReAct等外部工具协同策略,由模型选择合适的外部计算工具获取结果并进行解释,例如调用计算化学软件估算化合物的物理化学性质,以获得更加精确和可靠的预测。
化学知识本身的高度复杂性同样制约了大型语言模型在化学研究中的应用。即便是被认为具备博士水平能力的模型,其对化学的理解通常仍停留在基础层面,难以提供可靠而深入的实验指导,因此在复杂化学任务中仍显不足。一种解决方案是利用相关化学数据对模型进行微调,但这通常依赖开源模型并需要计算机科学方面的专业能力与跨学科合作。另一种更具可行性的途径是采用前述的提示工程方法,如ReAct或RAG,使模型能够按需检索外部化学知识,补充自身不足,从而克服化学领域的专属性限制。
当前,大型语言模型在计算机科学领域的迭代速度极快,为人工智能辅助化学研究创造了重要机遇。一些先进模型展现出极为强大的性能,但其使用成本往往较高,且在部分领域相较前一代模型的性能提升有限。例如,某些性能领先的模型在API调用价格和训练能耗方面代价显著,而在特定任务中的优势并不明显。在这种情况下,合理利用提示工程,往往比单纯依赖更新模型版本带来更显著的性能提升。因此,在关注最新模型进展的同时,化学研究者更有必要根据具体需求,掌握并灵活运用提示工程技术,选择最合适的模型组合。
展望未来,大型语言模型的能力正在从单纯的文本推理与预测拓展至多模态方向。随着图像、音频等编码器的引入,多模态大型语言模型展现出更广阔的潜力。提示工程同样可以应用于多模态模型,辅助化学研究。在涉及分子动态构象多样性和晶体结构复杂性等化学场景中,通过跨学科合作将提示工程融入多模态大型语言模型,有望成为未来的重要研究方向。随着大型语言模型能力的持续涌现,化学研究者将能够更加充分地借助这些技术,尤其是提示工程,推动化学领域的创新与发展。