ACS Cent. Sci. 2026｜从Prompt到Drug：走向药物研发超级智能

今天介绍的这篇Outlook来自ACS Central Science。作者围绕prompt-to-drug提出一个更激进的设想：当生成式人工智能与自动化实验室系统深度耦合后，一句自然语言prompt就能触发端到端、闭环、全流程自治的药物研发，从靶点发现、分子设计到合成验证、临床方案与上市后监测都由系统编排并随反馈迭代。文章回顾了AI在药物发现中的演进路径，强调以大语言模型（LLM）+高级推理+多智能体+API驱动实验平台实现跨模块协同的潜力，同时也直面幻觉、可解释性、级联错误与合规治理等现实约束，并以药物研发超级智能（Pharmaceutical Superintelligence，PSI）收束未来方向。

Zhavoronkov, A.; Gennert, D.; Shi, J. From Prompt to Drug: Toward Pharmaceutical Superintelligence. ACS Cent. Sci. 2026. https://doi.org/10.1021/acscentsci.5c01473.

0 摘要

生成式AI平台与自动化实验室系统的融合正在开启药物发现的新阶段：一句自然语言prompt可能启动一个完全自治、端到端的药物研发项目。该论文梳理了AI技术的最新演进，并提出“prompt-to-drug”流水线：AI不仅生成新假设并设计优化后的候选药物，还能在闭环系统中编排合成、验证与临床规划。通过总结关键突破、案例与实现这一范式转变所需的技术基础设施，作者勾勒出一个可扩展、高效率、并尽量减少偏差的药物发现愿景。

1 引言

在过去十年里，人工智能的快速进步，以及多组学数据集在发现流程中的可用性、可整合性不断提升，使“prompt-to-drug”这一概念逐渐成形。AI设计药物进入临床的进展，以及AI语言模型在各行业的快速落地，标志着药物发现流程正在转向AI加速的范式。生成式AI平台能够以自然语言进行输入输出，加之把复杂计算与系统控制交给自治系统的概念验证不断出现，使一种场景变得可想象：研究者只需用一句话描述期望的治疗结局，就可能启动一个完整的药物研发项目。在仅给出prompt的情况下，一个高度集成、AI驱动的系统将自治地识别相关靶点、设计高效且安全的化合物、指导合成、规划并执行临床前研究，甚至起草临床试验方案。

与传统的、分工割裂的药物开发方式不同，prompt-to-drug模式承诺的是一条无缝衔接、可自适应且高效率的流水线。靶点识别、分子设计、生物学验证与临床规划等每个阶段不仅会被加速，还会被前序与进行中的实验反馈持续动态地修正。由于人类在数据整合、实验通量与假设生成方面存在固有限制，消除由此带来的瓶颈有望显著缩短开发周期、降低成本，并提高临床试验成功概率。

该论文系统梳理支撑这一转变的技术、里程碑与概念框架，回顾AI在药物科学中的演化：从规则系统与机器学习到LLM与多智能体推理系统，并讨论这些创新如何被组装为端到端的工作流。

2 药物发现中AI的历史演进

2.1 传统机器学习

AI工具贯穿药物发现流程并非新事物，早期便被用于靶点发现、药物化学与小分子设计，以及生物大分子药物的设计。传统机器学习方法广泛用于一般筛选、分类，以及相对简单的基于相似性的筛选。这类算法能够处理噪声较大的生物数据，往往对过拟合更鲁棒，并且通常具有较高可解释性。机器学习方法可以对与疾病相关的分子靶点进行抑制剂的预后分类，预测并评分药物—靶点相互作用，还能发现靶点与候选药物的关键属性，例如靶点可成药性或药效团特异性。

2.2 深度学习革命

深度学习算法在21世纪初到2010年代逐步发展，受益于图形处理器（GPU）大规模并行计算架构的进步，迅速在包括药物发现的多个领域得到应用。分子动力学模拟尤其依赖GPU并行化，其发展速度甚至超过摩尔定律，使药物—靶点结合建模、对接模拟与结构—活性关系研究等工作更加可行，从而服务于药物分子设计。特别是利用高维多组学数据集的神经网络虚拟筛选，已经被用于筛选具有抗菌性质的肽，并预测化合物的结合亲和力。

2.3 生成式AI的到来

在2010年代中后期，深度学习计算能力的提升，尤其是变分自编码器、生成对抗网络（GAN）与Transformer等模型的发展，引发了一批强大且多样的生成式AI工具。随着AI能力从机器学习到深度学习，再到生成式AI不断跃迁，每一代方法都能覆盖生物技术开发周期中更多阶段：机器学习对组学数据的分析促进了致病机制与疾病靶点的发现；在机器学习框架上发展的深度学习提升了蛋白—蛋白、药物—靶点与药物—药物相互作用分析，并结合化学与结构信息；生成式模型进一步把能力扩展到生成式化学与临床试验预测等功能。

早期基于深度学习的生成方法往往只能输出一维或二维分子表示，因为算法主要训练于文本化分子表示（例如SMILES或SELFIES）或分子图表示。随着潜在靶蛋白三维结构数据的可得性与分辨率提升，多种生成式AI方法开始利用这些信息，将模型训练在三维分子表示上，以更准确、更高效地预测口袋内结合：从按顺序组装原子的图神经网络，到基于扩散模型的一次性全分子生成方法。

生成模型节省时间与成本的潜力可由Insilico Medicine提出的生成张量强化学习（GENTRL）模型体现。该模型在用于学习分子结构相关性质的自编码器基础上发展，在21天内发现了对DDR1具有高效且选择性的抑制剂，并在额外时间内完成合成与验证；此外也在30天内得到一个CDK20抑制剂。

以生成式预训练Transformer（GPT）为代表的大语言模型作为基础模型，使许多AI工具在医疗与药物发现中更易获取、也更易使用。BioGPT以及ChatGPT、PandaOmics等商业平台能够利用研究论文、专利与基金等大规模文本资源发掘生物网络与治疗靶点。其他基于GPT的模型还能基于SMILES或SELFIES等文本表示生成新型药物分子结构，这与LLM擅长的基于token模式预测的能力天然契合。cMolGPT、ChemGPT、DrugGPT与MTMolGPT等生成式化学模型也在ChEMBL与PubChem等大型公开数据集上进行训练。

然而，当前LLM工具生态的内在设计特征使其并不适合承担端到端的分子发现任务。基于模式识别的生成式LLM缺乏对化学结构决定性质的生化原理、以及生物系统复杂相互作用的深层理解。SMILES或SELFIES的token化进一步简化了化学表示，并丢失例如立体化学等信息，而这些信息可能对对接模型与更高阶分子性质推断至关重要。通过顺序或迭代调用不同工具的多模型方案，可能在降低信息损失或通量瓶颈的同时，保留各工具的优势。生成模型在探索训练集之外的化学空间方面也存在困难，而为解决这一问题进行专门训练又会受到算力、资金与时间成本的限制。

此外，围绕药物发现单一环节分别开发AI工具的做法，导致系统层面的低效：在不同工具、用户或专家之间切换会产生大量空转时间。能够顺畅“交接任务”的系统是解决这一低效的关键，并使端到端流水线能够利用所有可用工具。

图1｜生物技术领域中AI的演进。 过去十年里，人工智能算法与架构的进步，使AI工具的覆盖范围从对生物系统的组学分析扩展到分子设计与药物化学，并进一步进入临床实践与临床试验设计。由最新高级推理算法驱动的自动化步骤提升了科学发现与药物开发流程的通量，并促进跨学科工作流。

3 迈向端到端的AI加速药物发现

3.1 以“智能系统的系统”整合割裂流程

现有AI工具之所以呈现模块化形态，源于对药物研发各个环节的加速与自动化需求，例如靶点发现或候选分子的结构—活性关系（SAR）优化。真正的革命将来自把这些系统连接成真正端到端的流水线：缩短开发周期，并降低每一步对人类协调与数据分析的依赖，是实现极致效率的关键。模块化平台本身也有助于实现这一“免人工交接”的模式，因为AI算法擅长整合不同数据类型与功能。

长期以来，利用组学、影像、临床与文本挖掘等多模态数据进行分层或网络式整合的机器学习方法，已被用于发现疾病进程生物标志物、提出新靶点，并预测治疗反应与生存结局。将这些子系统整合起来，更适合采用一种“系统的系统”的定向编排方式：让靶点发现、分子设计与生物学验证等可独立运行的组件系统从属于一个中央控制器。鉴于各子系统相对自洽且已在面向自动化优化，中央管理最有效的作用在于系统间接口对接。

以AI提升性能的智能“系统的系统”被设想为流程编排器：把规划与控制任务分配给不同参与者或智能体，同时对过程输出进行分析，评估并判断失败、异常或低效，维护并整合新子系统与资源，预测潜在失效点，并管理数据组织与安全功能。迄今生物医学领域的系统级框架落地仍有限，既有例子更多聚焦在异质细胞培养建模、医疗管理，或医疗设备与人体生理的交互等相对小规模、个体层面的多模态挑战。更大规模的系统，例如多分支药物发现流水线，将在更大尺度上推动中央自治控制系统的实践，也会放大复杂工作流协同带来的挑战。

3.2 当下任务交接低效的典型例子

十多年前，研究团队就展示了集成式、自动化端到端系统的潜力，并开始组装覆盖多个阶段的大型流水线片段。然而在当今制药行业，流程各阶段仍高度断联、彼此孤立，通常由不同团队分别负责，最终形成不同公司、不同工具拼接起来的补丁式工作流，数据格式与类型也彼此不一致。下面给出两个代表性例子。

3.2.1 小分子药物发现中的Hit扩展

在识别出hit化合物后，需要在其类似物中找到更多活性分子以评估候选药物。化学信息学软件会在内部化合物库与外部供应商目录中检索类似物。随后，多种计算化学软件根据预测的亲和力、效力与类药性质对这些类似物排序，以决定湿实验测试优先级。之后通过采购软件下单。生成式AI工具还可能用于针对特定假设生成定制类似物设计，这通常需要专门的合成与AI逆合成规划软件。类似物收到或完成合成后，通过实验请求系统安排在选定实验中测试，再在另一套软件中进行数据检索与分析。

单个研究人员往往无法熟练使用上述全部软件工具，不得不向不同职能的同事寻求协助，进一步拖慢发现进程。

3.2.2 多种治疗模态的样本登记与追踪

现代药物发现会使用小分子、生物大分子、RNA及其偶联物等多种治疗模态。传统的实验室信息管理系统（LIMS）多为单一模态设计。即便近年来多个供应商尝试弥补，多模态支持在现有商业方案中仍存在明显缺口。其结果是，不同模态的样本需要在不同LIMS系统中登记与追踪，不仅形成数据孤岛，也显著增加混合或偶联模态的管理难度。

4 大语言模型与高级推理的作用

4.1 大语言模型的能力边界

直到近几年，LLM与高级推理AI平台的出现，才使得不同数据类型的有效整合，以及对自然语言输入做出响应的自治、自适应控制编程成为可能。尽管目前仍多局限于领域内任务与较窄的应用场景，迁移学习与智能体系统的进展已开始释放多系统控制与整合贯穿药物发现流水线的潜力。迁移学习等深度学习技术在新药药代动力学性质预测、低数据或困难数据集的QSAR建模、以及低数据设定下的从头药物设计方面展现出更强预测能力，并在生成针对难以表征的Nurr1孤儿受体的新型纳摩尔级激动剂方面取得现实成功。

不过，迄今为止，智能体AI在高级推理驱动的自治规划与生物医学研究执行方面仍处于较低阶段，主要受限于预定义任务与方法学。当前一代LLM模型开始呈现更强的高级推理能力，不再停留在表层的token模式识别，而能执行逻辑推断、规划、多步问题求解与因果推理等更深层认知任务。这使模型能够把多个步骤串联起来、调用外部工具，并在执行过程中动态规划与修正行动。近期提出的DrugPilot这一基于LLM的AI智能体框架，被展示可自治支持整个药物发现流水线：整合多模态数据，并高效协调在药物反应与分子性质预测中应调用的工具；AgentD也被展示可自治从外部数据库检索生物医学数据、生成药物分子结构、预测性质、迭代提升类药性，并预测三维蛋白—配体构象。

分子性质之间复杂的相互作用、依赖关系与权衡，以及某些违反传统设计规则（例如Lipinski五规则）的药物仍可能成功这一事实，提示基于LLM的工具要么需要更全面的训练数据，要么需要对药物设计“规则”的解释更灵活。进一步而言，如果能够直接规划、执行并分析化学与生物实验（例如大规模并行筛选或定向合成），以补充预生成数据，就能更好地为分子设计与筛选提供证据并进行验证。现有概念验证包括ChemAgents与Synbot：ChemAgents使用基于LLM的多智能体架构，按顺序检索文献、设计实验、以机器人执行实验室任务，并计算分析结果，从而响应自然语言prompt完成一次实验；Synbot则对用户给出的化合物结构进行逆合成规划与机器人合成。两者的可泛化能力仍有限，往往需要相当具体的prompt才能达到预设目标，但已展示出把化学分析嵌入流程、并基于持续的计划再评估与数据收集动态生成和调整机器人指令的潜力。

这些集成式实验系统目前仍主要停留在小分子合成与测试，尚无法覆盖更复杂的治疗模态，例如生物大分子、细胞疗法、或PROTAC、双特异/三特异结合体等大型多结构域分子，也难以处理更复杂的测试环境，例如三维基质或类器官培养。生物大分子自动化生产也仍多停留在小规模概念验证。与此同时，当前实验室级的小分子自动化系统对复杂合成路线或试剂并不友好，例如立体选择性反应与纯化、对氧或水分敏感的试剂、低温或高压反应器需求、结晶、焦油状或蜡状中间体的分离、以及生产过程中的中途纯化或定量步骤等。上述限制共同造成了当前自动化分子生成能力与理想的开放式、可迭代治疗模态框架之间的显著差距。

尽管如此，LLM在科学领域的出现并更广泛落地，尤其是带有初具雏形的高级推理模型，将推动基于自然语言的人类可读控制算法，使面向任意目标过程构建类似控制系统变得更简单、更易获取。

4.2 多智能体系统与DORA

DORA等AI研究助理与“AI科学家”，以及Google的Co-Scientist，使AI能力进一步扩展，通过多智能体研究在研究者输入与既有数据结构基础上生成新假设与研究工作流。AI科学家助理能够扫描已发表论文、组学数据集与生物医学数据库，提出新的靶点或通路，把疾病、基因与临床特征之间不显然的联系串联起来。通过分析实验结果并判断其对假设的影响，这类系统可以综合形成高置信度的生物学洞见，或规划对修正后假设的实验检验。尽管这些工具进入生物医学研究工具箱的时间不长，但已有早期用例：利用研究助理平台重定位表观遗传修饰剂药物以治疗纤维化；整合组学数据与医学文献以指导精准医疗研究；为酶动力学数据抽取整理文献；甚至为天体生物学的质谱数据规划实验工作流。因此，基于智能体的实验编排器已经具备进入更大规模发现工作流的条件。

在临床前闭环中，定向药物分子的设计、合成与验证同样可以借助AI平台扫描以往较少探索的化学空间，以实现更优分子设计。ChemCrow与Coscientist等基于LLM的平台具备类似检索增强生成（RAG）的能力，可调用外部工具完成文献检索、分子性质分析与预测、合成规划与安全评估等子任务；它们能够接收类似“规划并执行一种驱虫剂的合成”这样的自然语言prompt，并使用实验设备合成相应化合物。语言驱动的智能药物发现智能体（LIDDIA）则进一步把结构优化与对接分析纳入流程，模拟传统药物化学中合成新型定向药物的做法。

不过，这些AI自动化的化学或药物合成工作流，在支持生物学发现、假设生成、以及迭代测试与模型改进以产生新化学方面，仍缺少所需的高级推理能力。智能体平台常见的过度自信、对提问方式过度敏感、误差叠加、可复现性问题，以及伦理治理与监督要求，都会限制其自治程度。尽管这些系统在自治文献检索、合成规划或化合物选择方面表现亮眼，但通常被限制在较窄领域，依赖预定义任务边界，并常在仿真或单模态环境中运行。例如Co-Scientist目前更偏向基于组学或文献数据的假设生成与实验规划，但缺乏与物理合成平台或临床预测模块的原生集成。ChemCrow与LIDDIA虽然通过RAG实现模块化工具使用，但主要聚焦性质预测与逆合成等早期任务，尚无法编排跨生物、化学与临床领域的全周期药物项目。

因此，如果把InClinico、PROCTOR、HINT等临床试验设计与预测模型纳入系统架构，就可能更早与监管路径对齐，而这一阶段在当前智能体AI研究工具中往往缺位。需要强调的是，这些临床预测平台尚未在真实世界中获得外部验证来实际指导临床试验设计，这在一定程度上可能源于利益相关方对临床试验中采用新技术的谨慎态度。在这些工具被广泛纳入临床阶段药物发现工作流之前，引入与传统研究与对照臂并行的“AI臂”将有助于验证模型并评估其对试验设计改进的有效性。

将更先进的AI控制器（例如前述研究助理式智能体系统已显示出接近可用的迹象）与这些能直接与物理研究基础设施交互的合成与测试系统整合，有望把更多推理与决策步骤从研究人员转移到AI平台，从而进一步提升早期药物发现项目的速度与成功率。把药物发现流水线中离散且分支的步骤串成闭环自动化系统，以减少空转时间与人类引入的偏差，需要控制算法并行运行专门的AI智能体，在全开发周期内实现持续反馈与模型改进，并能够与传统设备及AI优化实验设备的软硬件接口通信与控制。

图2｜药物发现工作流中对物理系统与计算建模系统的任务级控制。高级推理AI模型作为中央编排者，在持续监测的基础上依据数据读出与并行评估进行微调。各系统通过API与中央编排模型交互；中央编排模型把传统以生物学与化学为中心的实验系统（例如药物筛选平台）与对生物、化学或临床系统的预测性计算建模置于同等模块地位，并进行统一调度。

甚至连数据的报告与发表也开始纳入自动化工具的覆盖范围，例如DORA等多智能体工具被专门用于生成科学报告。通过为写作过程中的不同任务配置专用智能体，系统可以在一定程度上复刻科学写作与传播中涉及的人类分工，从而生成高质量、既适合人阅读也适合机器处理的出版物。

4.3 LLM的局限与真实世界部署的经验教训

尽管LLM驱动与智能体AI系统在药物发现中的潜力巨大，但其更广泛的采用仍受若干关键限制。一项主要挑战是“幻觉”，即生成看似自信但实际上错误或缺乏证据支撑的输出。在生物医学应用中，这尤为危险：虚构的引用、蛋白相互作用或合成路线会误导下游流程。近期对LLM生成生物医学内容的评估发现，如果缺少针对性优化策略，当模型被要求生成化学结构的文本描述、提出可用于阿尔茨海默病药物重定位的候选、预测靶点的拓扑表面积、预测药物靶点、解读组学数据或识别疾病相关基因时，幻觉率都可能较高。作者也提到，在早期智能体工具用于药物发现探索阶段的实践中，曾观察到生成模型提出在合成上不可行或与已知结构—活性关系不一致的分子骨架，从而需要人工干预与专家筛选；也曾观察到人工SAR优化可改善溶解度或代谢易感性等特定性质。

另一个持续问题是智能体协同：如何让面向化学、生物与临床试验设计等不同专长的多个智能体协作，而不发生任务重叠、错误传播或上下文丢失。尽管ChemCrow与Coscientist等框架展示了工具调用能力，但当智能体需要交接部分结果或动态调整计划时往往较脆弱，这凸显了对强健中央编排器与智能体通信协议的需求，而这在当前实现中仍不成熟。

在药物发现的多智能体系统中，“级联错误”风险尤为突出：早期模块（例如靶点口袋与活性预测）产生的不准确或与训练数据分布的偏差，会沿着分子生成、合成规划与试验模拟等后续阶段不断放大。即便是AlphaFold2等被视为金标准的蛋白结构预测工具，也无法在所有情况下提供准确预测；而当生成式化学与虚拟筛选的早期步骤依赖结构拟合与对接模拟时，这会带来问题。如果缺少明确的架构与流程性防护，这类失败链条会不断叠加。现有领域中的一些策略可供借鉴，例如通过智能体间验证与投票引入冗余的集成或共识机制；利用置信度传递使下游模块调整行为；当编排器检测到不一致或低置信度输出时触发实时适应、回溯与任务重启；以及在面向患者与监管的高风险转换节点设置人类在环检查点。

最后，模型输出的可解释性与可追溯性仍是悬而未决的问题，尤其在面向监管的任务中更为关键。不同于传统QSAR或基于规则的系统，LLM常被视为不透明的黑盒，使得其决策难以被合理化，也难以追溯某项建议所依据的数据。这会影响机制预测、患者分层与临床试验规划等任务，因为可解释性不仅在科学上重要，在法律层面也可能是强制要求。把因果推理、证据链与可解释性基准嵌入生成系统的努力正在推进，但距离在高风险场景中实现无需监督的可靠性仍有差距。与之相关的还有基础模型训练数据的来源、时间与许可状态常缺少透明记录，从而在可复现性、可追溯性以及对数据使用协议与药物管线监管要求的合规方面带来挑战。

5 AI编排的药物发现愿景：从Prompt到Drug

5.1 概念性工作流

对开发药物发现集成系统的研究者而言，宏大的目标是构建真正的prompt-to-drug自治流水线：用户用一句自然语言提出对药物性质的任意要求，系统返回一个完成合成并经实验验证、可进入临床研究的候选药物，同时给出临床研究方案与上市后监测计划。实现这一工作流所需的各个阶段，本身要么正在被开发用于AI驱动的自动控制，要么已作为商业产品落地，或已被整合进现有的药物发现流程中。当前正适合从零开始构建闭环临床前实验室，为把控制权逐步交给高级推理AI系统、实现无需人工交接的药物发现研究做准备。

5.2 详细工作流概览

系统的启动可以从一句简单请求开始，例如“为特发性肺纤维化（IPF）设计一种药物”。随后，一个高级推理AI模型作为总导演，给予靶点发现、化学与临床开发子系统相对自由度，分别去识别最优靶点、最优分子设计与最合适的患者人群，从而提高成功概率。系统会生成研究计划并创建AI智能体团队，在公开数据、私有数据与已发表文献的整合基础上，推动一个集中式的药物发现项目，其组织方式类似于ChemCrow或ChemAgents等已显示出潜力的自治实验系统。

为了最大化商业成功概率，研究计划需要与竞争分析进行交叉校验；竞争分析也会在每个关键数据读出后持续用于重新评估并校准项目方向。生物学智能体负责运行自动化实验室：从汇总公开数据来源与体外实验验证模型出发提名疾病相关靶点。这些模块会扫描文献、提出假设与实验计划，并在需要时通过体外实验进行验证，这与DORA、Coscientist等控制器原型的做法相似；也可以借助更专门的实验规划工具，例如CRISPRGPT。得到靶点后，化学智能体使用专有或公开可用的生成式化学平台来设计定向药物分子，并沿用传统的分步先导优化链条：利用成熟且经过验证的对接模型、合成可及性评分与ADMET预测算法，对最有希望的先导分子进行优先级排序。

LLM擅长符号推理与任务协同，但缺乏深层的生化与结构基础，这要求把分子动力学（MD）、量子力学（QM）模拟与对接引擎等基于物理的模型整合进LLM驱动的工作流。相比仅依赖SMILES或SELFIES编码的纯LLM方法，下一代模型可能把三维分子图、电子密度图与实验测定数据纳入同一潜空间，并以多模态基础模型进行训练。智能体可以提出候选分子，再通过外部模拟验证结合亲和力、构象稳定性或合成可行性。作者提到，在新型TNIK抑制剂rentosertib的设计过程中，这类混合方法对优化AI生成候选至关重要，其中Chemistry42平台利用多种二维与三维结构模型筛选最有希望的先导分子。面向未来，将语言规划与模拟、多模态数据结合的模块化架构，是提升准确性、可解释性与真实世界可用性的关键。

AI发现框架一个内在局限在于难以区分相关性与因果性，因为其模式识别模块缺乏生化基础或类人的理解能力。AI工具也常存在上下文盲区：细胞类型依赖的表达或功能，以及多效性效应会使基因扮演复杂角色，如果训练数据集未显式覆盖，这些角色可能在靶点发现中被完全忽视。因此，后续仍不可避免地需要在内部系统或由CRO执行的合成、体外或体内测试与分子优化中进行验证。

把最少步骤的合成规划与芯片微流控合成、以及与机器人集成的细胞实验结合的分子设计工具，显示出用当下自动化工具就可获得简化的合成方案，从而支持新先导化合物的快速制造、测试与放大。预测与生成工具与生物网络及分子本身的复杂动态特性相交织，使得任何模型在药物进入临床甚至进入临床前测试之前，都需要物理实验验证并往往需要迭代优化。将设计—制造—测试—分析（DMTA）框架引入药物与材料发现的进展表明，基于闭环自动化合成、测试与优化循环进行迭代式模型改进，不仅能带来更稳健的药物发现系统，也会自我强化用于分子生成的数据集。

这些阶段产生的生物学洞见与临床前测试数据，会进一步用于临床试验设计：例如PROCTOR、InClinico或HINT等临床预测模型，可以前瞻性地识别最可能在临床测试中成功的患者人群与试验设计。尽管如此，AI系统尚未取代多阶段、逐步推进的金标准临床试验体系，该体系用于评估安全性、确定最优剂量并评价疗效。因此，需要与政府监管机构在经过验证的AI系统能力上充分对齐，因为监管机构仍是临床试验推进的权威把关者，其对系统能力的信心至关重要。

Ⅳ期与头对头临床试验会持续提供额外真实世界数据，这些数据甚至可能比Ⅰ～Ⅲ期试验更丰富。相较规模受限的临床试验，更大、更多样的患者群体与更长的给药后随访，使得生物、化学、临床开发与竞争态势模型得以持续更新与精炼，从而反向指导未来药物发现。

作者强调，这样的工作流并不需要从零开始。许多模块级AI模型已经存在或正在开发中。未来更关键的是：成功验证一个单体的多模态、多组学、高能力模型，使其训练于这些经实验验证的“有限模型”的输出之上，从而推动向药物研发超级智能（PharmaceuticalSuperintelligence，PSI）的过渡。

图3｜面向最小研究者输入的自治药物发现理论最优流程。 一个作为“控制器”的高级推理模型规划并执行研究计划，计划由无需人工介入的体外与计算（in vitro与in silico）靶点发现、分子发现与化学分析组成。得到的候选分子与支撑性临床前数据用于指导临床试验设计；临床试验读出与上市后证据会持续反馈到竞争分析模块，进而反向修正高级推理模型与后续研究计划，使药物研发能够结合更广阔的开发环境进行动态决策（例如竞品药物、监管考量、研究与资金趋势、未被满足的患者需求等）。

5.3 API驱动智能体与类人机器人

传统药物发现的发展已在过去百年里把许多关键步骤标准化。除面向生物、化学与临床开发的下一代AI模型外，既有实验与数据分析系统仍应是药物开发流水线的核心组成部分。例如单细胞转录组实验如今易于自动化且高度并行，已成为跨细胞类型评估动态表型效应的金标准。当前的高通量化学合成与分析工作流也支持训练AI模型所需的大规模筛选，以及实现超高效率的“合成—测试—再优化”循环。

同时，人类与系统的交互应尽量减少，以避免错误、偏差与空转时间。类人机器人的一个设计优势在于能够直接操控为人类科学家设计的传统设备与工作空间。类人机器人可以被视为中央高级推理AI所部署的一个智能体：能够长时间不间断工作，并可与其他机器人无缝交接任务，从而减少生物与化学实验各高度技术化阶段之间、以及阶段内部的等待与空转。作者提到，InsilicoMedicine已在开发“类人机器人在环”的工作流，用于补充其自治临床前实验设施，而这些设施已在抗衰老与促健康老龄化药物方向产出洞见。

6 未来展望与建议

6.1 走向多模态与项目特定模型

只有把所有可用数据纳入考量，才能在新药项目的生物学、化学与临床设计中最大化成功概率。未来的多模态AI平台需要训练于非常广泛的数据之上：从空间分辨的多组学数据与匿名化患者病历，到结合自由能与对接模型，再到临床试验参与者的组学数据与匹配结局等。

在尽可能获取更多数据的同时，模型也需要针对每个药物发现项目进行定制，并谨慎过滤训练数据。例如，如果目标是干预某类高度敏感且关键的细胞类型（例如神经元）的功能失调过程，就需要比通常更谨慎地降低细胞毒性或脱靶效应，这可能要求过滤训练数据集以排除相关风险，或专门纳入对入脑能力与外排降低等因素的刻画。因此，每个项目的多模态训练数据应当“宽到足够用，深到尽可能”。

6.2 闭环自治药物发现中的人类监督与问责

尽管加速药物发现的未来愿景依赖流水线的自治执行，但问责、安全保证与法律责任并不能转移给AI系统。因此，自治药物发现框架的安全与负责任部署，需要以公平性、以患者为中心与公正为基础的一系列原则与检查机制。

LLM幻觉等AI模型的可错性要求更严格的监督，以保证输出准确与安全。所有输出都应伴随机器可读记录，记录软件与硬件版本、输入数据与推理步骤，从而保证可审计与可复现。LLM识别错误并对自身输出提出反馈、或发起自我纠错的能力在多数情况下仍具挑战，因此在可信地实现最小人类干预之前，系统自治仍需要在自纠错能力上进一步突破。至少在短期落地中，应提供人类操作者评估、暂停、修改或否决AI决策的机制，尤其是在涉及患者的阶段。

药物发现生态中的关键参与者还包括各类法律与监管机构。监管机构既需要领域从业者的输入以制定合理、公平的规则，也将通过执法来约束行业实践。自治药物发现工作流的开发者需要与监管机构保持紧密互动，围绕AI生成的试验设计、生物标志物策略与患者分层方案建立验证与审批标准。此类系统落地的主要检查点之一，很可能是：在自治流水线的产物进入临床之前，必须对流程中每一步的AI工具性能分别给出足够的安全与有效证据。

在监管之上并与之并行，AI系统也应接受与人类研究相同的伦理审查流程，并对训练数据与推荐结果中的群体偏差进行主动监测。所有访问患者级、专有或受监管数据的AI工具，都应严格遵循HIPAA、GDPR与机构治理协议等隐私框架；训练与微调应在去标识化且法律许可的数据集上完成。

6.3 面向领域的建议

即将到来的AI驱动药物开发巨大跃迁，不可能由单一主体独自完成，无论是学术研究组、以AI为核心的生物技术公司，还是大型制药企业。实现真正端到端的自治药物开发，需要整个行业共同投入，每个参与者贡献不可或缺的一块拼图。

作者建议研究团队在每个阶段都及时发表工作。学术期刊不仅提供易于挖掘的文本与数据，帮助训练用于生化相互作用建模的生物网络模型与语言模型，也通过同行评议机制为研究质量背书，从而建立对这些技术基础的信心。AI药物发现中的渐进式改进与突破式进展都应尽可能广泛、及时地共享，以最大化影响。作者以Insilico Medicine为例说明其对研发全过程的研究结果进行了持续发表，例如对rentosertib（ISM001-055）开发中靶点发现、分子设计与临床阶段的系统性论文报道。

为了让AI工作流具备面向未来的可维护性，作者建议研究团队对已在特定任务上验证过的AI模型进行充分标注，把每个自动化闭环子系统视为与实验设备同等重要的基础设施，并从一开始就把流程设计为可通过API运行子系统，使中央编排AI能够访问与调度。尽管每个子系统都可以、也应该针对具体药物开发项目进行定制并与其他流程隔离，但跨研究团队的平台互操作与落地仍取决于中央控制模型的可用性，以及其可利用的可解释架构与操作说明。

作者也承认，尽管AI编排药物发现的长期目标是降低人类错误与偏差，但在当前科学、法律与监管条件下，完全移除人类监督既不可取也不现实。更可行的做法是在关键环节引入人类在环检查，以保障安全、透明与公众信任，例如模型来源与可追溯性、人类覆盖与否决能力、监管对齐、伦理审查、偏差监测、数据安全与合规。在进入面向人的治疗开发之前，中央AI控制的每一步都需要在足够大的已获批药物集合上完成验证，使公众与监管机构能够确信AI工具具备提供安全有效疗法的能力。尽管这会成为端到端AI药物发现落地的显著瓶颈，但这些子系统验证对获得各方支持至关重要。作者提到，rentosertib推进到临床早期阶段等进展，已在一定程度上验证了AI方法的可行性：AI工具可以识别具有生物学依据的疾病靶点，并设计安全有效的药物分子；但临床试验设计等其他子系统仍需要新的验证方式，例如在临床试验中设置并行“AI臂”，才能达到类似水平的真实世界证据。

7 结论

AI正在快速重塑药物发现流水线，使制药行业从碎片化、依赖人工的流程，转向自治、数据驱动的工作流。随着LLM与高级推理系统不断成熟，其编排端到端发现流程的能力仍在演进，覆盖从假设生成到分子合成、生物学测试与临床规划，并能根据实时数据动态调整与跨学科协作推进项目。

“prompt-to-drug”这一由自然语言请求触发完全自治药物开发项目的愿景，已不再只是遥远想象。模块化AI平台、类人机器人在环与多智能体系统的发展，使这一愿景的基础组件已经能够运转。当这些组件与更强的生成模型、项目特定训练以及闭环实验室结合时，不仅有望缩短开发周期、降低成本，也可能通过减少人类偏差与探索以往较少涉足的化学与生物空间，开启新的科学发现层级。

要把这一愿景真正落地，学术界、生物技术公司与监管机构之间的协作至关重要。需要把工作重点放在数据互操作、透明的模型报告以及与监管标准的对齐上，从而建立对AI辅助决策的信任。通过持续发表结果、共享数据，并标准化AI—人协作接口，药物发现领域可以走向一个AI不再只是工具、而更像“共同科学家”的未来，推动创新、改善患者结局，并改变药物研发方式。