arXiv 2025 | PepThink-R1: 基于 LLM 的可解释环肽优化框架,结合 CoT 微调与强化学习
今天介绍默克公司最新发表在 arXiv 上的一项研究工作——PepThink-R1: 基于 LLM 的可解释环肽优化框架,结合 CoT 微调与强化学习。肽类分子在药物发现中具有独特优势,能够提供高特异性和可调节的生物活性,并能靶向常规小分子难以作用的蛋白–蛋白相互作用。然而,环肽设计长期面临难题:一方面,庞大的序列空间与复杂的药理性质需求使得有效探索变得极为困难;另一方面,现有生成模型往往缺乏可解释性,限制了其在实际药物研发中的应用。PepThink-R1 的提出正是为了应对这些挑战。该框架在大语言模型的基础上,引入链式思维(CoT)监督微调与强化学习(RL),不仅能够在序列生成中实现单体层面的显式推理,提升设计过程的透明性,还能通过定制化奖励函数在化学合理性与药理性质优化之间实现平衡。研究表明,PepThink-R1 在生成环肽的脂溶性、稳定性和暴露度等方面均有显著提升,优于通用 LLM 和领域基线,为可信且可解释的肽药优化开辟了新的方向。

获取详情及资源:
0 摘要
治疗性肽分子的设计面临巨大挑战,主要在于序列空间庞大、实验数据有限以及现有生成模型缺乏可解释性。为解决这些问题,研究者提出了 PepThink-R1,这是一种生成式框架,将大语言模型(LLMs)与链式思维(CoT)监督微调以及强化学习(RL)相结合。与以往方法不同,PepThink-R1 在序列生成过程中能够显式推理单体水平的修饰,不仅提升了可解释性,还能在优化过程中同时兼顾多种药理性质。
该模型通过定制化的奖励函数引导学习,在化学合理性与性质改进之间实现平衡,能够自主探索多样化的序列变体。实验结果表明,PepThink-R1 所生成的环肽在脂溶性、稳定性以及暴露度方面均有显著提升,性能超越了通用 LLM(如 GPT-5)及领域专用的基线模型,无论在优化成功率还是解释性上均表现突出。据悉,这是首个将显式推理与强化学习驱动的性质控制相结合的 LLM 肽设计框架,为可信、透明的治疗性肽分子优化迈出了重要一步。
1 引言
基于肽的治疗手段在现代药物发现中正逐渐兴起,这是由于其具备高特异性、可调节的生物活性,并能够靶向难以处理的蛋白–蛋白相互作用。尤其是环肽,凭借受限的构象以及非天然氨基酸(NNAAs)的引入,展现出更高的稳定性和结合亲和力。然而,要同时实现溶解性、结合亲和力等多种性质的优化仍极具挑战,其根本原因在于设计空间的庞大与复杂性以及标注数据的稀缺。
人工智能(AI),尤其是生成式模型,近年来在应对这些挑战方面展现出显著进展。诸如PepTune与PepINVENT等工具是该领域的重要代表。PepTune 利用离散掩码扩散模型与蒙特卡洛树搜索(MCTS),能够在离散表征空间中实现多目标优化,包括化学修饰及环肽的设计。而 PepINVENT 则基于REINVENT 平台,通过掩码语言模型作为创意生成器,在指定的单体位置实现肽序列的优化。尽管这些工具在实际项目中的影响仍需验证,但现有框架的核心局限在于缺乏可解释的生成推理。模型无法揭示某些修饰为何能提升目标性质,从而限制了其可信度与适应性。
受大语言模型(LLMs)中推理能力进展的启发,研究者提出了一种新框架,将 LLM 与显式链式思维(CoT)监督微调(SFT)以及强化学习(RL)结合,用于实现可解释的性质可控环肽优化。与以往工作不同,该方法在序列生成中直接利用单体层面的推理,显著提升了解释性与模块化,这对于现实治疗应用中的迭代设计至关重要。
具体贡献包括:
- 构建数据管线,将原始肽数据转化为带有推理增强的肽对,从而在 SFT 中引入以性质为中心的单体修饰依据。
- 设计了一种简洁而有效的 CoT 构建策略,将单体层级的修饰与目标性质改进对应起来,为指导生成提供语义支架。
- 基于所构建的数据集对 LLM 进行监督微调,使其能够内化化学上有意义的推理模式。
- 引入强化学习模块,在探索新型肽序列时,鼓励模型应用并优化其推理能力,奖励函数综合考虑了化学有效性与多性质优化。
这一方法是首个在单体优化层面显式整合 CoT 推理与 RL的 LLM 肽生成框架。通过将符号化推理与序列探索结合,该方法提升了环肽的可解释性与目标性质优化能力。初步结果显示,在性质满足率方面显著优于现有最先进的方法,为加速肽药设计周期提供了有前景的方向。

图 1:方法总体框架示意图。 通过对原始数据进行单位置突变构建肽对,并利用 QSAR 模型预测其性质值。这些肽对用于预训练 LLM 的 CoT 监督微调(SFT),随后结合**强化学习(RL)**进一步优化,最终实现肽分子优化。
2 相关工作
功能性肽分子的设计,包括环肽,因其巨大的序列空间与复杂的性质需求而极具挑战性。近年来,研究者尝试利用大语言模型(LLMs)、变分自编码器(VAEs)以及其他深度生成模型来生成新型肽分子,并结合强化学习(RL)、蒙特卡洛树搜索(MCTS)、遗传算法以及基于 LLM 的探索方法,引导肽序列空间朝着目标性质进行优化。
肽生成方面,大多数工作将肽表示为 HELM 或 SMILES 形式的线性序列,并应用生成建模来设计具有特定治疗性质的肽。例如,HELM-GPT与AMP-Designer是基于 GPT 的模型,在 HELM 表征下以单体为单位进行操作;而PepINVENT与PepTune则采用 SMILES 表征,利用掩码语言模型实现多样化的肽生成。另一些工作探索了不同表征形式之间的转换,使得模型能够在序列层面进行生成,同时结合三维结构信息进行性质评估。更多相关综述可参考 Wan、Zhai 等人的研究。
在化学空间中的多性质优化方面,已有研究表明,强化学习(RL)是实现多性质优化的有效策略,能够推动包括小分子、肽和蛋白在内的多模态治疗实体的目标导向发现。许多研究将 RL 模块与生成模型结合,并通过性质预测器的反馈来优化关键特性,如细胞渗透性、抗菌活性与结合亲和力。具体方法涵盖策略梯度、奖励塑形,以及推理阶段的搜索方法如蒙特卡洛树引导,从而帮助模型在多个常常互相冲突的治疗目标之间取得平衡。
在**化学生成中的链式思维(CoT)监督微调(SFT)**方面,CoT 通过在得到最终答案前生成中间推理步骤来增强 LLM 的推理能力,现已成为提升现代 LLM 推理性能的重要技术。近年来,一些工作将 CoT 推理拓展到生物化学相关问题中,包括化学问答、蛋白–蛋白相互作用预测、分子结构理解与性质预测。然而,将 CoT 直接引入 LLM 的监督微调用于化学优化,目前尚属首次探索。
3 方法学
整体方法框架如图 1 所示。首先,从 CycPeptMPDB 数据库获取原始肽数据,并通过对肽的 HELM 编码进行单位置随机突变,生成仅有一个单体差异的肽对。随后,利用内部 QSAR 模型计算所有肽的性质值,并从中筛选高质量肽对用于预训练 LLM 的链式思维(CoT)监督微调(SFT)。在此基础上,设计了强化学习(RL)策略,进一步提升模型对生成肽性质的可控性。以下将介绍训练数据构建、CoT 提示设计及 RL 方法。
3.1 合成训练数据集的准备
原始数据
数据集起始于 CycPeptMPDB 数据库中提取的 5,530 条头尾环化肽序列。去除无法被 CycloPs 处理的序列后,保留了 3,778 条仅由天然 α-氨基酸(AA)单体组成的环肽。为扩展化学空间,引入 Amarasinghe 等人开发的虚拟 NNAAs 库,该库基于反应生成,包含约 38 万种可合成的 NNAAs,其中选取了具有代表性的 1 万种。结合 CycPeptMPDB 中的 385 种天然单体,最终形成了10,385 个独特单体的词表。
数据增强
利用 CycloPs 对 3,778 条天然肽进行增强。每条肽在其 HELM 序列中的非末端位置进行 100 次独立点突变,每次突变将原有残基替换为单体词表中随机抽取的单体。对于每条突变序列,记录其突变肽、突变位置以及突变前后的单体类型。该过程共得到约 38 万条独特环肽,且每一条突变肽与其原始肽天然构成了仅单体差异的肽对。
性质标注
所有肽均通过基于 Chemprop 的多任务消息传递 QSAR 模型进行注释,该模型已在内部数据上训练,用于 ADMET 相关性质预测。关注的三个终点包括:(1) LogD (LogD_HPLC_pH_7),表示 pH=7 时的脂溶性;(2) MRT (Rat_MRT(hrs)),表示大鼠体内的平均滞留时间(小时);(3) SIF (SIF_halflife_10mg_per_ml(hrs)),表示在模拟肠液中的半衰期。
数据分类
为更贴近药物发现的实际需求,将预测性质离散化为三个等级:低、中、高。阈值基于数据分布经验设定:
- LogD:低<3,中 3–4.2,高>4.2;
- MRT:低<0.56,中 0.56–1.63,高>1.63;
- SIF:低<3.4,中 3.4–10.1,高>10.1。
肽对根据是否存在一个或多个性质提升至高水平进行分类。例如,若一对肽在 LogD 和 SIF 上提升至高水平而 MRT 不变,则标注为LogD up, SIF up。样本进一步划分为单性质提升、双性质提升、三性质提升类别。与原始数值变化相比,这种分类方式在化学优化中更具实际意义,因为真实的先导化合物优化通常更关注是否达到特定的 ADMET 阈值,而非小幅的数值增益。
训练与评估数据集
为构建 SFT 数据集,保留所有三性质提升的肽对,因其体现了强多目标优化成功。同时,从双性质和单性质提升类别中各采样最多 4,000 条肽,以丰富训练样本并涵盖多样化的优化模式。在 RL 阶段,从 SFT 训练集中随机选取 600 条肽作为初始训练池。评估阶段则排除所有三性质提升样本,形成1,880 条留出样本,这些数据来自表现较弱的肽,用于检验模型能否将训练中学到的优化策略泛化至未见过的低性能样本。
表 1:PepThink-R1 的 CoT 提示模板。 方括号[ ]内的内容由具体的肽对实例填充。

3.2 CoT 提示设计
为训练 PepThink-R1,设计了一种提示模板,明确引导语言模型通过单体层面的推理逐步改进肽分子。该模板包括三部分:任务背景、修饰目标以及详细的推理指南。模型需逐步推理如何改变肽序列中的特定单体,并输出修改后的 SMILES 字符串(以 HTML 标签封装)。这种设计促使模型将肽视为由单体组成的模块化序列,限制其修改范围仅为单体替换,避免过于剧烈或化学上不合理的突变,同时提升推理的可解释性和局部性。此外,这种结构化提示也有助于强化学习智能体以更合理的方式探索新型单体,从而在保证分子完整性的前提下激发创造性。
3.3 基于药理学奖励的强化学习
算法
在 RL 训练阶段,采用**组相对策略优化(Group Relative Policy Optimization, GRPO)**对模型 πθ 进行微调,以增强推理过程。每个训练样本由待编辑的 SMILES 字符串 xs 和文本提示 xt 组成,模型生成一组候选输出,每个输出包含推理轨迹与最终答案。通过自定义的奖励函数对输出进行评分,并计算相对分数与优势值,用于更新模型参数,目标函数为:
其中
奖励建模
为引导 RL 生成药理学上更优的分子,设计的奖励函数综合考虑了性质可取性、结构相似性与多样性控制,公式如下:
- 性质可取性:利用 Chemprop 多任务 QSAR 模型预测三个关键 ADMET 性质(LogD、MRT、SIF),并通过 Sigmoid 平滑函数将回归值映射为阈值达成度:
其中
- 相似性因子:基于 Morgan 指纹计算生成分子与原始分子的 Tanimoto 相似度
,奖励函数为:
其中
- 去重惩罚:为避免模式塌陷并鼓励多样性,基于分子出现频率设计惩罚:
其中
这一奖励设计确保生成的肽既在药理学性质上得到改进,又保持结构合理与多样性。
3.4 评价指标
为评估生成肽的质量,设定了六个指标,涵盖化学有效性、多样性、新颖性以及在三个关键终点上的优化表现。
- 有效性(Validity):生成序列是否能通过 RDKit 验证且能被 QSAR 模型成功预测。
- 新颖性(Novelty):生成分子中不在训练集出现的比例,衡量模型的创新能力。
- 唯一性(Uniqueness):不同分子在全部生成样本中的占比,反映冗余度与多样性。
- 高质量成功率(HQSR):生成肽同时满足三个高水平阈值(LogD、MRT、SIF)的比例:
- 每个种子对应的唯一高质量分子数(UHQS):平均每条输入种子肽生成的唯一高质量分子数量:
- 每个种子的高质量成功率(HQSR-S):至少生成一个高质量分子的种子肽比例:
4 结果与讨论
4.1 CoT SFT 与 RL 赋能 PepThink-R1 成为高效的肽优化器

图 2:不同方法生成肽的 LogD 对比。 上方面板展示了从原始肽到生成肽的 LogD 区间转移热图;下方面板展示了三种生成方法(LogD 随机突变、CoT-SFT 模型、PepThink-R1)的 LogD 分布。与随机突变和 CoT-SFT 模型相比,PepThink-R1 显著富集了高 LogD 值,体现出优化效果。热图标题中,“SFT generated”表示 CoT-SFT 模型结果;“RL generated”表示 PepThink-R1 结果。
为验证PepThink-R1在环肽优化中的有效性,将其与两种基线方法进行比较:随机突变和链式思维监督微调模型(CoT-SFT)。其中,随机突变方法与第3.1节描述一致,作为最基础的对照;CoT-SFT模型本质上与PepThink-R1相同,但缺少RL模块。通过对比随机突变、CoT-SFT与PepThink-R1,可以更清晰地理解性能提升的来源。
图2、图5和图6分别展示了三类ADMET指标(LogD、MRT、SIF)在不同模型阶段的区间转移热图与分布直方图。热图揭示了肽在随机突变、SFT模型以及PepThink-R1三个阶段间的性质转移情况;直方图则更细致地展现了性质值的分布变化。
随机突变几乎无法稳定改善性质。 例如,在LogD指标中,仅有2%的低LogD肽被提升至高水平,而41%的高LogD肽降至中低区间。类似模式也出现在MRT与SIF中:高质量肽常常退化,而低至中等水平的肽则大多停留在原有区间。这表明单纯随机编辑在改善ADMET性质上极为低效。
CoT-SFT模型带来显著提升。 在三类性质上,均可观察到低、中水平的肽有大量转移至更高区间。例如,81%的中等LogD肽提升至高LogD,58%的中等MRT肽转移至高MRT。同时,高水平的肽大多保持稳定,如96%的高LogD肽仍留在高区间。这说明SFT成功教会了模型如何改进性质,同时避免了已优化序列的退化。
结合RL的CoT提示进一步提升性能,实现接近完美的性质控制。 在三类性质上,超过85%的输出肽均达到高水平,不论其原始水平如何。例如,在MRT中,97%的低MRT肽被转化为高MRT肽;在LogD中,94%的低LogD肽被完全提升。这种稳定的低到高转移,凸显了PepThink-R1在优化复杂生化性质方面的强大能力。
局限性。 实验结果表明,PepThink-R1在多性质优化方面极为有效,其性能主要源于CoT SFT与RL的结合。然而,需要注意的是,实验中预测性质值不应被直接视为真实水平。例如,在实验室实际数据中,LogD通常不会超过6,SIF也难以超过30小时,因此更合理的解读应是在同一QSAR模型下的相对改进。此外,内部QSAR模型的表现也可能受到领域适用性与活性断崖等因素影响,因此本研究在根本上也受限于这些问题。同时,本研究对RL的探索尚不充分,奖励模型仍有进一步改进的空间,这可能带来更高的优化增益。
4.2 PepThink-R1 优于通用 LLM
为评估PepThink-R1的性能,研究者选择了一系列通用大语言模型作为对照,包括具备推理能力和不具备推理能力的模型。具体而言,基线模型涵盖了GPT-4o、DeepSeek-R1 Llama-8B、Qwen3-30B-Thinking-2507以及GPT-5。其中,两款GPT模型通过API调用,其他模型则基于开源权重。实验中,GPT-4o版本为“gpt-4o-2024-08-06”,而GPT-5的推理强度设为最小。推理框架统一采用vllm,并在推理参数上保持一致:采样温度设为0.95,top-p设为0.7,最大生成长度限制为4096个token。
表2展示了不同模型在六个评价指标上的表现。整体来看,大多数模型均能生成化学有效的肽SMILES,其中**SFT-RL(0.987)和SFT(0.956)**的结构有效性最高;而面向推理的模型(如DeepSeek-R1-8B与Qwen3-30B-Thinking)在结构控制方面明显较弱。几乎所有模型的新颖性均接近完美(>0.98),表明它们具备生成未见分子的能力。但在唯一性上差异显著:随机突变与CoT-SFT能保持较高多样性(>0.95),而强化学习因优化压力显著降低唯一性(仅0.200–0.300)。
在性质满足方面,通用LLMs如GPT-4o与GPT-5表现有限(HQSR <0.11),而强化学习显著提升了性能。尤其值得注意的是,CoT-SFT-RL(PepThink-R1)取得了最高的HQSR(0.890),以及最强的HQ-Unique/Seed (4.42/10 和 11.81/50)和HQ-Seed Success (0.984)。与不包含CoT的SFT-RL相比,PepThink-R1进一步强化了性质优化能力,凸显出链式思维推理在超越标准强化学习的性质控制中发挥的关键作用。同时,研究发现one-shot提示在所有模型中均导致性能下降,说明额外的上下文或示例可能干扰了分子的内在生成逻辑,而非起到正向作用。
综上,PepThink-R1在性质约束的肽设计中表现显著优于随机突变、监督微调,甚至优于GPT-4o和GPT-5等强大的通用LLMs。但其在结构多样性上的限制仍需进一步探究,尚不清楚这是有意的优化方向还是亟待改进的不足。

表 2:各类基线模型与本模型的评估指标。 Val=有效性(Validity),Nov=新颖性(Novelty),Uni=唯一性(Uniqueness),HQSR=高质量成功率(High Quality Success Rate),UHQS=每个种子的唯一高质量分子数(Unique High Quality per Seed),HQSR-S=每个种子的高质量成功率(High Quality Success Rate per Seed)。其中,CoT-SFT 表示经过 CoT 提示监督微调后的模型,SFT-RL 表示在 SFT 基础上进行强化学习的模型,而 CoT-SFT-RL 即本研究的最终模型(PepThink-R1),结合了链式思维增强的强化学习。
4.3 PepThink-R1 与 PepINVENT 的案例研究
在这一部分,研究者将PepINVENT作为领域内的基线模型,与PepThink-R1进行了小规模案例对比。PepINVENT是一个基于transformer的生成模型,而另一款值得关注的模型PepTune因商业授权限制,未能纳入对比。本研究选取了4条种子肽作为起点,分别比较两者在性质预测与结构修饰上的表现,同时保留原始种子肽作为基线。对于PepINVENT,首先根据LogD、MRT与SIF的综合评分(total_score)对候选肽排序,并选择最高得分的序列作为结果;而对于PepThink-R1,则为每条种子肽选取满足三个性质均达到“高水平”(LogD ≥ 4.2, MRT ≥ 1.63 h, SIF t1/2 ≥ 10.1 h)的候选肽。
性质值对比
四条种子肽在LogD、MRT和SIF t1/2上的原始预测值均较低(表4)。PepINVENT显著改善了这些性质,并在肽3与肽4上完全达到“高水平”标准,但在肽1(MRT = 1.54 h < 1.63 h)与肽2(SIF t1/2 = 6.20 h < 10.1 h)上仍有不足。相比之下,PepThink-R1在所有种子肽上始终同时满足三项高水平要求,并且在性能上进一步超过PepINVENT。例如:肽1在LogD、MRT与SIF t1/2上分别提升+0.33、+1.22 h、+2.12 h;肽3则提升+0.92 LogD、+7.06 h MRT、+7.58 h SIF t1/2。这些结果表明,即便起点较低,PepThink-R1仍能在**脂溶性(LogD, pH 7.0)、暴露度(MRT)以及肠液稳定性(SIF)**上实现同步提升。
化学结构对比
代表性的结构变化见图3,展示了肽1与肽2及其生成结果。PepINVENT遵循用户指定的突变位点,往往产生固定位置的替换,但倾向于提出更复杂的环系结构。而PepThink-R1并未预设突变位点,因此探索范围更广,但整体选择了相对更简洁的环结构。这种差异可能与两者的训练数据不同有关。尽管如此,两种模型的结构修饰均与其在性质空间中的改进相吻合。例如,PepINVENT在两条肽中都引入了N-甲基化,从而降低了酶降解的敏感性并增强稳定性,同时提升了脂溶性。PepThink-R1在肽1中建议将天冬酰胺替换为亮氨酸,以减少极性并改善MRT;同时引入一个含叔丁基基团的非天然氨基酸(NNAA)单体,进一步提升性质。对于肽2,PepThink-R1引入了两个含叔丁基的NNAAs,并将亮氨酸替换为脯氨酸,可能增强脂溶性、刚性以及NNAA含量。但一个不寻常的修饰是将D-脯氨酸转化为L-脯氨酸,这可能降低酶学稳定性。这一变化或许反映出PepThink-R1在化学洞察上的局限,也可能暗示了一种尚未被充分理解的策略优势。
局限性
该案例研究规模较小且偏定性,原因在于PepINVENT运行所需计算资源有限,且分析过程中涉及人工结构检查。因此,相关结构观察仅供说明,不能视为全面对比。结构相关的评论主要基于少量样本的模式,而非系统性总结。未来需要更大规模、可控且最好是自动化的分析,以便定量评估生成质量与可开发性。同时,结合真实实验数据、领域专家评估与实验室验证,将对结论的可靠性具有重要意义。

图 3:种子肽以及 PepThink-R1 和 PepINVENT 生成肽的化学结构与性质值。 展示两个典型案例,每个案例包含三种结构:原始肽、PepThink-R1 生成肽、PepINVENT 生成肽。结构差异分别以灰色、蓝色和绿色标注,展示了 PepThink-R1 在设计上的不同之处。
4.4 PepThink-R1 的可解释推理过程
为评估**链式思维(CoT)**带来的可解释性增强,研究者分析了PepThink-R1在肽1与肽2上的推理输出,以检验其推理是否能够真正指导新肽的生成。
推理过程
表3展示了PepThink-R1生成的具体推理文本,以及其中涉及单体的化学结构可视化。对于肽1,模型提到将甘氨酸替换为 [NH2+][C@@H](Cc1cc(C(C)(C)C)cc(c1Cl)Cl)C(=O)[O-],并且这一替换在生成的肽中得到严格反映。对于肽2,推理输出指示将亮氨酸替换为新的单体,同样在结构上得到精确体现。然而,PepThink-R1在最终结果中还引入了更多单体修饰,这些变化并未出现在推理文本中。相比之下,PepINVENT并不具备推理过程,因此研究者进一步比较了两款通用推理型LLM——GPT-4o和GPT-5。
表5中展示了GPT模型在肽1上的推理输出。总体而言,GPT-4o与GPT-5给出的策略合理,能够从高层次上提出改善LogD、MRT与SIF的方向,两者的共同点包括建议进行N-甲基化与引入叔丁基基团。这些策略大致覆盖了PepINVENT与PepThink-R1采取的方法,但缺少PepThink-R1所提供的具体单体结构细节。此外,GPT的推理输出未能结合具体的种子肽,显示出通用LLMs在特定化学任务中的局限性,也解释了它们在表2中性能不佳的原因。更有趣的是,图7中可以看到GPT虽然提出了合理的推理策略,但最终生成的SMILES序列在量化指标上表现不佳,这说明其推理过程可能并未真实反映模型内部的“思考”,或者模型并未被训练去忠实执行自身策略。
相较之下,PepThink-R1的推理输出具有案例相关性与可验证性:其推理基于具体的种子肽,且最终生成的SMILES能够严格反映推理结果。不过,其局限性在于推理文本未能覆盖所有修饰,也缺少GPT所展现的广泛战略性。
理解PepThink-R1的创新性
研究者在单体数据库中未找到表3中新提出的单体,于是进一步搜索其子结构,并将新单体拆解为两个部分。结果显示,这两部分均能在数据库中找到对应的已知单体(图4)。由此提出三种假设来解释PepThink-R1生成新结构的可能机制:
- 模型具备一定的化学结构理解能力,能够从已知结构组合形成新的单体;
- 模型仍将单体视作字符串,通过字符串操作生成新的有效SMILES;
- 基础模型在更广泛的化学数据中见过类似结构,PepThink-R1只是继承了这种记忆而非真正创新。
究竟哪一种假设更接近事实,还有待未来研究进一步验证。
表 3:PepThink-R1 在肽 1 和肽 2 上的推理过程。 每个案例中,推理文本均配有两个单体的可视化,一个为原始单体,一个为新提出的单体。


图 4:所提出单体的结构及其在单体数据库中的潜在来源。 所提出单体(b)由两个部分组成,这两部分均存在于单体数据库中(在结构和 SMILES 字符串中分别以青色和红色标注)。其中,青色部分来源于单体(a) 7O9,红色部分来源于单体(c) FN7。
5 结论与未来工作
该研究提出了PepThink-R1,一个具备推理能力的生成框架,用于环肽优化。该方法将链式思维(CoT)监督微调与强化学习(RL)结合,能够在序列生成中显式推理单体水平的修饰,并在药理学感知的奖励机制下探索序列空间,从而实现可解释、可控且多目标导向的肽分子设计。实验结果表明,PepThink-R1在性能上显著优于通用LLM、单纯的监督微调方法以及现有工具。
然而,该方法仍存在若干局限:(i) 性质提升依赖QSAR预测,而非实验验证;(ii) 训练数据主要为合成数据,来源于虚拟替换而非真实实验对照;(iii) 强化学习虽提升了性质可控性,但降低了结构多样性。
未来的研究方向包括:在奖励环路中引入实验反馈;结合结构建模与基于对接的打分方法;进一步拓展推理深度,以捕捉多位点或骨架层面的修饰策略。通过解决这些问题,PepThink-R1有望逐渐发展为治疗性肽发现中的实用助手,在符号化推理与数据驱动优化之间建立起桥梁。