NC 2023 | KPGT: 基于知识引导增强分子表示学习的预训练框架
今天介绍的这项工作来自 Nature Communications。
学习有效的分子特征表示以促进分子特性预测对于药物发现具有重要意义。然而,当前基于自监督学习的方法存在两个主要障碍:缺乏明确定义的自监督学习策略和 GNN 的能力有限。
研究团队提出的知识引导的预训练模型KPGT 增强分子表示学习,从而推进下游分子属性预测任务。KPGT框架结合了一种称为线图变换器 (LiGhT) 的高容量模型,该模型专门用于精确建模分子图结构,以及旨在捕获分子结构和语义知识的知识引导预训练策略。KPGT在63个分子性质预测数据集表现出强大性能。此外,KPGT识别造血祖细胞激酶 1 (HPK1) 和成纤维细胞生长因子受体 (FGFR1) 两个抗肿瘤靶点的潜在抑制剂,展示了KPGT的实际应用性。KPGT 为有效的分子表征学习提供了强大的自监督学习框架,从而推动了人工智能辅助药物发现领域的发展。

获取详情及资源:
0 摘要
学习有效的分子特征表征以提升分子性质预测能力,对药物发现具有重要意义。近年来,人们开始越来越多地关注通过自监督学习技术对图神经网络(GNN)进行预训练,以缓解分子性质预测中数据稀缺的问题。然而,现有的自监督学习方法主要面临两个问题:缺乏良好定义的自监督学习策略,以及 GNN 表达能力有限。在此背景下,研究团队提出了知识引导的图Transformer预训练框架(KPGT),以缓解上述问题,并提供具有良好泛化性和鲁棒性的分子表示。KPGT框架将专门为分子图设计的图 Transformer,与一个知识引导的预训练策略相结合,从而充分捕获分子的结构知识和语义知识。在63个数据集上进行的大量计算实验表明,KPGT 在多个领域的分子性质预测任务中表现出优越的性能。此外,KPGT 在药物发现中的实用性也得到了验证:它成功识别出两个抗肿瘤靶标——造血祖细胞激酶1(HPK1)和成纤维生长因子受体1(FGFR1)——的潜在抑制剂。总体而言,KPGT为推动人工智能(AI)辅助药物发现过程提供了一种强大且实用的工具。
1 引言
在药物发现领域,寻找具有期望性质的分子是最具挑战性的任务之一,因为通过实验测定分子性质需要耗费大量时间和成本。近年来,基于人工智能(AI)的方法在分子性质预测中发挥着越来越关键的作用,在效率和成本方面具有显著优势。对于基于AI的分子性质预测而言,一个核心难题在于如何表示分子。早期的机器学习方法主要尝试利用一些基础的人工构造特征来表征分子,其中最典型的是分子描述符和分子指纹。分子描述符以定量方式刻画小分子的物理和化学特性,而分子指纹则用二进制字符串表示分子结构中是否存在特定的子结构。基于这些表征的预测方法严重依赖复杂的特征工程策略,从而削弱了模型的泛化性和灵活性。
近几年,深度学习方法逐渐成为分子性质预测中的重要工具,其关键优势在于能够从相对简单的输入数据中自动学习有效特征。包括循环神经网络(RNN)、卷积神经网络(CNN)以及图神经网络(GNN)在内的多种网络结构,已经被用于建模不同形式的分子数据,从SMILES表示到分子图像以及分子图等。然而,标注分子数量有限、化学空间极其庞大,这两点共同限制了这些方法的预测性能,尤其是在处理分布外样本时问题更加突出。
伴随着自监督学习在自然语言处理和计算机视觉领域取得的突出进展,这类技术也被引入到GNN的预训练中,以提升分子表征学习能力,从而显著改善下游分子性质预测任务的表现。当前的自监督方法(例如GraphLoG、GROVER和GEM)通常通过两类思路来构造预训练任务:一类是对分子图进行节点或子图掩码,然后让模型预测被掩盖的部分;另一类是借助对比学习目标,将经过扰动的分子图与其原始图在潜在空间中对齐。
分子本身具有与其结构高度相关的性质特征,这意味着即便对分子图做很小的修改,也可能破坏其原有的语义信息。这一天然属性使得现有针对分子图的自监督方法往往只能强调结构相似性,而难以充分捕捉编码在化学结构中的、与分子性质相关的丰富语义信息。此外,在缺乏显式语义信息的情况下,掩码节点与其邻居之间的联系更多只是满足价键规则,这通常不足以指导模型对被掩盖节点做出准确预测,最终容易导致模型“记住数据”而不是学习通用规律
研究团队据此提出一个假设:如果在自监督学习框架中显式引入能够定量描述分子特征的先验知识,就有望有效缓解上述问题。许多分子的定量特征(例如前文提到的分子描述符和分子指纹)可以通过成熟的计算工具方便地获得。将这些知识融入自监督过程,可以为模型提供大量与分子性质相关的语义信息,从而显著提升模型获取“语义增强型”分子表征的能力。
现有的大多数自监督方法通常以GNN(例如图同构网络)作为骨干模型。然而,GNN 的模型容量存在内在上限:随着网络层数的增加,容易出现过平滑问题;同时,由于消息传递主要局限于一跳邻居,GNN对于原子间长程相互作用的建模能力往往不足。近年来,尤其是基于Transformer的模型在各个领域中表现突出,正逐渐成为新的通用骨干网络。此类模型参数规模大、能够有效建模长程依赖,为全面刻画分子的复杂结构特征提供了非常有前景的方向。
在该研究中,研究团队提出了KPGT,一个用于增强分子表征学习的自监督框架,从而推动下游分子性质预测任务的性能提升。KPGT由两部分核心组成:一是高容量骨干模型 Line Graph Transformer(LiGhT),专门为精确建模分子图结构而设计;二是知识引导的预训练策略,旨在同时捕捉分子的结构信息和语义信息。在约两百万分子的超大规模数据集上完成预训练后,KPGT在63个分子性质数据集上都取得了显著的性能提升。同时,研究者通过将KPGT应用于两个抗肿瘤靶点——造血祖细胞激酶1(HPK1)和成纤维生长因子受体1(FGFR1)——的潜在抑制剂筛选任务,验证了其在实际药物发现场景中的应用价值。总体而言,KPGT为高效分子表征学习提供了一个功能强大且通用的自监督学习框架,有望进一步推动AI辅助药物发现的发展。

图1 | 展示了KPGT的总体概览。 a 基于掩码图模型、并引入额外知识增强的知识引导预训练策略。分子被表示为分子线图(molecular line graphs),用于刻画原始分子图中边与边之间的相邻关系。b 基于经典Transformer架构的线图 Transformer。c 下游分子性质预测任务中的微调(finetuning)设置迁移学习,此时预训练好的 LiGhT 参数是可训练的。在该设置下,可以采用多种微调策略,例如分层学习率衰减(layer-wise learning rate decay)、重新初始化(re-initialization)、FLAG 和 L2-SP 等。d 下游分子性质预测任务中的特征提取(feature extraction)设置迁移学习,此时预训练好的 LiGhT 参数保持固定。这里的**神经指纹(neural fingerprints)**是指由预训练LiGhT生成的分子特征表示,作为信息丰富且具有区分度的分子表示。MLP表示多层感知机(multi-layer perceptron),Linear表示线性层(linear layer),MatMul表示矩阵乘法(matrix multiplication),DE表示距离编码(distance encoding)模块,PE表示路径编码(path encoding)模块。
2 结果
2.1 KPGT总体概述
研究团队提出的 KPGT 框架(图 1)由两个主要组件构成:作为骨干模型的 Line Graph Transformer(LiGhT),以及一个知识引导的预训练策略。LiGhT 专门设计用于充分捕捉分子图结构中复杂的模式(图 1b)。该模型基于经典的 transformer encoder,由多层多头注意力模块和前馈网络构成。LiGhT 接收分子线图(molecular line graphs)作为输入,这种表示方式刻画了原始分子图中“边与边之间”的邻接关系(补充图 3)。将分子表示为线图,使得 LiGhT 能够充分利用化学键的内在特征,而这些特征在先前提出的 transformer 架构中通常被忽视。此外,为了精确表征分子的结构信息,研究团队在多头注意力模块中引入了两个位置编码模块:距离编码(distance encoding)和路径编码(path encoding)。提出的知识引导预训练策略基于掩码图模型(masked graph model)目标:首先在分子图中随机掩盖一部分节点,然后学习去预测这些被掩盖的节点(图 1a)。这一策略最显著的特点是引入了额外知识。对于每个分子图,都会增加一个知识节点(K 节点),并将其与图中的原始节点连接。每个K节点的初始特征嵌入由对应的“额外知识”初始化。在预训练过程中,K节点会在每一层Transformer的多头注意力模块中与其他节点进行交互,从而为掩码节点的预测提供指导。这一机制使得骨干模型能够同时有效捕捉分子图中的结构信息和语义信息。
2.2 KPGT 在分子性质预测中优于基线方法
首先在 11 个分子性质数据集上,将 KPGT与19种最新的自监督学习方法进行了比较。这些数据集中,8个是分类任务,3个是回归任务,涵盖了包括生物物理、生理以及物理化学在内的多种分子性质。在特征提取设置下,KPGT在8个分类数据集中的7个,以及3个回归数据集中的2个上优于基线方法,总体上在分类任务上相对提升2.0%,在回归任务上相对提升4.5%在微调设置下,KPGT在8个分类数据集中同样有7个胜出,并在全部3个回归数据集上优于基线方法,总体上在分类任务上相对提升1.6%,在回归任务上相对提升4.2%。这些结果表明,相较于以往方法,KPGT是一个更强大的分子表示自监督学习框架。
此外,在这些基线方法中,GROVER、Supervised+Context Prediction(ContextpredSup)、Supervised+Attribute Masking(MaskingSup)、Supervised+Edgepred(EdgepredSup)以及Supervised+Infomax(InfomaxSup)也通过引入图级监督预训练任务(例如预测分子基序是否存在、或分子生物活性)来整合额外知识。尽管这些方法的自监督策略并不完全明晰,它们仍然明显优于那些未引入额外知识的其他基线方法。这一观察说明:引入额外知识对于增强分子预训练的效果至关重要。
随后,研究团队使用 Therapeutics Data Commons(TDC)和MoleculeACE提供的数据集,将KPGT与传统机器学习以及监督式深度学习方法进行了比较。TDC是一个包含 22个分子性质预测任务的基准平台,这些任务覆盖了吸收、分布、代谢、排泄与毒性(ADMET)等多个维度,是药物发现和开发中的关键性质。KPGT与TDC榜单中的28个基线方法进行了对比,其中包括16种深度学习方法和12种机器学习方法。
结果显示,KPGT在22个数据集中的16个上优于基线方法:具体而言,在6个吸收数据集中的5个、3个分布数据集中的2个、6个代谢数据集中的6个、3个排泄数据集中的1个,以及4个毒性数据集中的2个上取得领先(图 2c)。这些结果表明,KPGT能够提供鲁棒且具有泛化性的分子表示,适用于预测多种分子性质。
研究团队还在更具挑战性的任务上评估了KPGT的表现:预测存在activity cliffs的生物活性。Activity cliffs是指一对结构高度相似但效价差异很大的分子,对预测模型而言非常困难。MoleculeACE 是一个专门针对activity cliffs设计的基准平台,提供了来自30个大分子靶点的30个生物活性数据集。在这一评估中,KPGT与 MoleculeACE平台上的24个基线方法进行了比较(包括7种深度学习方法和17种机器学习方法),并且还加入了前面自监督基准中用到的全部19种自监督方法。KPGT在30个数据集中的26个上取得领先,总体相对提升为3.9%。图 2e 展示了只在每个测试集中的 activity cliffs 上评估时的结果。在该设置下,KPGT 在 30 个数据集中的 22 个上优于基线方法,总体相对提升为 1.2%。这些观察表明,KPGT 在预测分子生物活性方面表现出色,即使面对 activity cliffs 这样特别困难的情形。

图2 | 展示了KPGT与基线方法在分子性质预测上的对比评估 a、b 在特征提取设置(骨干模型参数固定)和微调设置(骨干模型参数可训练)下,KPGT与自监督学习基线方法在8个分类数据集(以AUROC衡量)和 3 个回归数据集(以 RMSE 衡量)上的平均结果。c KPGT在TDC基准平台排行榜上的排名结果,用于预测分子的吸收、分布、代谢、排泄和毒性等性质。排名结果基于5次独立运行的平均结果。虚线用于分隔不同类别的分子性质。d、e KPGT与基线方法在MoleculeACE平台的30个生物活性数据集上的平均结果,评价指标为 RMSE:分别在测试集的所有分子上评估(记为MoleculeACEAll),以及仅在测试集中的 activity cliffs 上评估(记为MoleculeACECliff)。
2.3 探索 KPGT 在预训练与微调中学习到的知识
在证明KPGT在分子性质预测方面具有优势之后,研究团队进一步分析了其高性能背后的原因。首先考察的是KPGT预训练后构建的潜在空间(latent space)。为此,选用了一个包含12,328个分子的CYP3A4酶活性数据集,每个分子都有实验测得的“抑制/非抑制”标签,CYP3A4是药物代谢中一个关键的酶。
研究团队首先使用预训练好的KPGT为这些分子生成神经指纹(neural fingerprints,即分子特征表示)。随后,从CYP3A4数据集中随机抽取200个分子作为测试集,剩余分子作为训练集。基于这些神经指纹构建 k 近邻分类器(kNN),对测试集中分子的活性进行预测。然后,将KPGT的表现与两种经典指纹(扩展连通性指纹 ECFP、RDKit指纹 RDKFP)以及两个来自最新自监督方法(GROVER 和 GraphCL)的神经指纹进行比较。图 3a 给出了基于准确率和AUPRC(Precision-Recall 曲线下面积)的对比结果。可以看到,KPGT在AUPRC上比基线方法高出1.3%–2.7%。这说明,在KPGT学到的潜在空间中,相邻的分子更倾向于具有相似的性质。
为进一步验证这一结论,研究团队又进行了补充实验。具体来说,首先针对测试集中每个分子,从剩余数据中检索其在潜在空间中最近的邻居,从而获得200对分子。然后,计算了5个在药物发现中非常重要的描述符:分子LogP(MolLogP)、分子量(MolWt)、拓扑极性表面积(TPSA)、可旋转键数(NumRotatableBonds)、药物相似性定量估计(QED)以及合成可及性(SA),分别对测试分子和其最近邻居进行计算。之后,用Spearman等级相关系数和Pearson相关系数来衡量每对分子在这些描述符上的相关性。图 3b和补充图9展示了KPGT与基线方法的结果,表明KPGT在这些描述符上的相关性整体更高。
此外,还计算了每对分子的结构相似性,即通过它们的RDKFP/ECFP指纹的Tanimoto相似度来衡量。结果显示,与其他自监督方法相比,KPGT检索到的“最近邻”分子在结构上具有更高的相似性(图 3c)。这些结果共同表明,在KPGT学到的潜在空间中,分子之间的“接近”不仅意味着结构相似,也意味着语义上的相似。这一发现说明,知识引导预训练策略的引入,确实让LiGhT有效捕捉了分子的结构信息与语义信息,从而为下游性质预测提供了充足的知识基础。
接下来,研究团队在CYP3A4数据集上对KPGT进行了微调,并分析其表现。具体来说,在该数据集上对KPGT进行微调,然后使用t-SNE对测试集中的分子表示进行可视化。结果表明,KPGT能够将“抑制剂”和“非抑制剂”在表示空间中明显分开,这说明在微调过程中,KPGT能学习到区分不同性质分子的有效特征(图 3d)。
随后,研究团队评估了KPGT 在该数据集中识别 activity cliffs 的能力。结果表明,在仅针对activity cliffs 的评估中,KPGT 相比基线方法在AUPRC 上有 7.1% 的相对提升。为了进一步理解 KPGT 的预测,选取了两对activity cliffs(分别记为 A+/A− 和 B+/B−),并将它们在潜在空间中的位置可视化。如图 3d所示,尽管这些分子对的指纹相似度非常高(0.87 和 0.96),KPGT仍能将它们正确地分布在不同区域。
研究团队还使用图解释方法SubgraphX,对这些activity cliffs 的关键子结构进行可视化和解释(图 3d)。结果显示,KPGT成功捕捉到了区分这些 activity cliffs 的关键子结构,这表明它在微调阶段不仅能识别不同性质分子的判别性特征,还能为预测提供具有化学意义的可解释性。

图3 | 展示了KPGT在预训练和微调阶段所学习的知识。 a 在CYP3A4数据集上,使用不同k值进行药物代谢预测时,基于k近邻分类的准确率和AUPRC。b 使用KPGT和基线方法得到的指纹,为200个目标分子各自匹配到的最近分子,二者在五个描述符(即MolLogP、MolWt、TPSA、NumRotatableBonds、QED和SA)上的Pearson相关系数。c 200个目标分子及其对应最近分子的结构相似性分布,这些最近分子由KPGT和基线方法的指纹检索得到。d KPGT在CYP3A4数据集上产生的分子表征的t-SNE可视化,以及利用SubgraphX识别出的activity cliffs关键节点的可视化。虚线圆圈标出activity cliffs中可区分的关键子结构。
2.4 利用 KPGT 挖掘潜在的抗肿瘤靶点抑制剂
造血祖细胞激酶1(HPK1)和成纤维生长因子受体1(FGFR1)与多种癌症类型相关,是重要的抗肿瘤治疗靶点。针对HPK1和FGFR1,已有的高质量实验数据为构建和验证AI模型提供了良好基础,也为评估KPGT的实际应用价值与预测性能提供了机会。在该节中,通过评估实验、药物重定位以及分子对接分析,对这两个靶点进行了系统验证,以展示KPGT在真实药物发现场景中的有效性。
为了发现HPK1的潜在高效抑制剂,研究团队从专利和文献中收集了4442个具有实验抑制活性的分子,活性以pIC50(半数抑制浓度的负对数)表示。在该数据集上,通过三种不同的数据划分方式评估了KPGT的预测表现:骨架划分(scaffold split)、时间划分(time split)和域迁移(domain transfer)。图4b–d和补充图14展示了KPGT与19种自监督基线方法的比较结果:无论是Spearman还是Pearson相关系数,KPGT都显著优于这些基线方法。尤其是在时间划分和域迁移这两类训练与测试分子结构差异很大的场景中(图4a),KPGT仍然保持了较高的相关性,体现出其在HPK1抑制剂预测上的高泛化性与高可靠性。

图4 | 展示了利用KPGT识别HPK1抑制剂。 a 在时间划分和域迁移两种场景下,基于t-SNE对分子ECFP进行可视化。b–d KPGT及各基线方法在三种不同数据划分场景下预测HPK1抑制剂的性能:b骨架划分(scaffold splitting)、c时间划分(time splitting)、d域迁移(domain transfer),评价指标为Pearson相关系数(Pearson’s r)。所有结果均基于三次独立重复实验,数据以均值±标准差(mean±SD)形式给出。e 基于KPGT得到的HPK1 pIC50数据集与FDA数据集的分子表征的可视化。图中虚线圈出的是KPGT从FDA数据集中预测出的对HPK1最有潜力的前十个候选抑制剂,其对应的分子结构示于右侧面板。对号符号表示这些分子已在既有研究中被报道为HPK1抑制剂。f KPGT识别出的前20个潜在HPK1抑制剂分子的分子对接打分,基于Autodock Vina计算。g 利用PLIP分析的配体gilteritinib与HPK1之间的相互作用。用于确定结合口袋的参考蛋白-配体结构为PDB编号7SIU。图中红色虚线位于−7 kcal/mol处,表示常用的“药物样分子具有良好结合潜力”的能量阈值。
随后,研究团队利用KPGT进行HPK1抑制剂的药物重定位研究。具体做法是:首先从DrugBank中收集了2718个已获FDA批准的药物分子,然后在HPK1的pIC50数据集上微调KPGT,并用其对FDA数据集进行预测。结果表明,这20个候选中有12个在以往实验中被证实具有HPK1抑制活性。例如,KPGT识别出的sunitinib是一类多靶点酪氨酸激酶抑制剂,以往研究报道其对HPK1的Ki约为16 nM。
为进一步增强证据,研究团队对KPGT排名前20的药物进行了分子对接分析。使用Autodock Vina作为对接软件,以PDB结构7SIU中的蛋白-配体复合物作为参考来确定结合口袋。图4f显示,这20个分子的对接能均低于−7 kcal/mol,这一能量阈值通常被视为“药物样分子具有良好结合潜力”的标志。
接着,利用PLIP(Protein-Ligand Interaction Profiler)对那些文献中尚未报道的候选分子进行了蛋白-配体相互作用分析。图4g展示了配体gilteritinib与HPK1的相互作用:它与蛋白形成了3个疏水相互作用和6个氢键,其中与残基94A和97A的氢键也在参考结构7SIU的原始配体中被观察到。这证明这些候选分子可以与HPK1紧密结合,从而进一步验证了对接结果的可靠性,表明KPGT在挖掘HPK1潜在抑制剂方面具备强大能力。
作为第二个原型示例,研究团队对另一个与肿瘤进展和侵袭相关的重要可成药靶点——FGFR1——进行了类似验证。从专利与文献中收集了12,461个具有实验pIC50的FGFR1分子,并在该数据集上分别在骨架划分和时间划分设置下评估KPGT的预测能力。图5a、5b表明,KPGT在骨架划分下的Pearson相关为0.924,在时间划分下为0.716,表现出较强的建模能力。
之后,再次利用FDA数据集对FGFR1进行药物重定位。结果显示,在KPGT排名前20的候选分子中,有13个已被文献实验验证为高亲和力或有效的FGFR1抑制剂。对接实验中,使用PDB结构5A4C作为参考确定FGFR1的结合口袋。图5d显示,KPGT推荐的前20个候选分子的对接能全部低于−7 kcal/mol。通过PLIP对蛋白-配体相互作用进行分析,发现配体brigatinib能够与FGFR1紧密结合:它与蛋白形成了4个疏水相互作用、1个氢键和1个盐桥,其中与残基641A的氢键也在参考结构5A4C中被观察到(图5e)。所有这些结果共同强调了KPGT在加速发现潜在候选药物方面的广泛适用性,突出了其作为药物发现工具的价值。

图5 | 展示了利用KPGT识别FGFR1抑制剂。 a, b KPGT及各基线方法在预测FGFR1抑制剂任务中的表现:a为骨架划分(scaffold splitting),b为时间划分(time splitting)场景,评价指标为Pearson相关系数(Pearson’s r)。所有结果均基于三次独立重复实验,数据以均值±标准差(mean±SD)形式给出。c 基于KPGT得到的FGFR1抑制剂pIC50数据集与FDA数据集分子表征的可视化。图中虚线圈出的是KPGT从FDA数据集中预测出的对FGFR1最有潜力的前十个候选抑制剂,其对应的分子结构示于右侧面板。对号符号表示这些分子已在既有研究中被报道为FGFR1抑制剂。d KPGT识别出的前20个潜在FGFR1抑制剂分子的分子对接打分,基于Autodock Vina计算。e 利用PLIP分析的配体brigatinib与FGFR1之间的相互作用。用于确定结合口袋的参考蛋白-配体结构为PDB编号5A4C。图中红色虚线位于−7 kcal/mol处,表示常用的“药物样分子具有良好结合潜力”的能量阈值。
2.5 KPGT的消融实验
为验证KPGT中各个设计模块的有效性,研究团队进行了系统的消融实验。具体来说,基于KPGT构建了一系列带有特定约束的变体模型,包括:KPGT-Pretrain(不进行预训练)、KPGT-KN(去除知识节点)、KPGT-PE(去除路径编码模块)、KPGT-DE(去除距离编码模块)、KPGT-LG(将分子线图替换为原始分子图)、KPGT-LiGhT+Graphormer(用Graphormer替换LiGhT作为骨干网络)、KPGT-LiGhT+GIN(用GIN替换LiGhT作为骨干网络)。此外,为了保证对比公平,所有模型的参数规模都被控制在相近范围(约350万参数)。
在基准测试数据集上的对比结果见补充表13。整体来看,KPGT相较于KPGT-LG取得了约2.3%的相对性能提升,这说明与传统方法使用的原始分子图相比,KPGT采用的分子线图能够提供更加信息丰富的结构表征。KPGT同样优于KPGT-LiGhT+Graphormer,取得约1.8%的整体相对提升,表明所提出的LiGhT作为骨干模型,相比Graphormer更能有效捕捉分子结构中的内在信息。与此同时,KPGT相较于KPGT-PE与KPGT-DE分别带来了约2.7%和3.0%的整体相对提升,从实证上验证了距离编码模块与路径编码模块在建模分子结构信息中的重要作用。综合来看,KPGT在所有变体模型中表现最佳,凸显了各个设计组件对其整体性能的关键贡献。
研究团队还考察了不同掩码比例(masking rate)对KPGT预测性能的影响。具体地,将掩码比例分别设为15%、30%、50%和60%,对KPGT进行独立预训练,并在下游任务上进行评估。实验结果表明,当掩码比例设为50%时,KPGT能够获得最优的预测性能。这一最优掩码比例显著高于以往方法中常用的15%。这一差异说明:KPGT中引入的额外知识可以有效引导模型去预测被掩盖的节点,使模型能够更充分地捕捉分子的语义信息。该现象也与计算机视觉领域的相关发现相一致——在自监督学习中采用更高掩码比例有助于提升下游任务性能。
3 讨论
该研究中,研究团队提出并建立了KPGT这一自监督学习框架,通过显著提升分子表示学习能力,实现了更准确、更具泛化性且更稳健的分子性质预测。依托高容量的骨干模型LiGhT,KPGT能够全面捕捉分子图内部蕴含的结构信息。更为重要的是,KPGT引入了知识引导的预训练策略,有效弥补了以往预训练方法定义不清、语义信息不足等问题,使模型能够学习到富含语义信息的分子表征。此外,KPGT在下游任务阶段结合了多种微调策略,以充分利用预训练模型中已获得的知识,从而进一步提升分子性质预测性能。得益于上述设计,KPGT在63个数据集上均较多种基线方法取得了显著性能提升,并在两个抗肿瘤靶点的多种潜在抑制剂发现任务中展现出良好的实际应用前景。
尽管KPGT在分子性质预测方面表现出明显优势,但仍存在若干有待改进之处。首先,引入“额外知识”是该方法最具辨识度的特点之一。目前KPGT采用了200维分子描述符与512维RDK分子指纹作为知识源,未来仍有空间纳入更丰富、更全面的知识类型。例如,Mordred可以计算1800余种分子描述符,这为进一步扩充知识维度、增强分子表示学习提供了潜在机会。其次,未来工作还可以尝试在预训练阶段引入分子的三维(3D)构象信息,使模型能够显式捕捉与空间结构相关的关键因素,从而有望进一步增强分子表征能力。此外,当前KPGT的骨干网络规模约为一亿参数,预训练样本量约为两百万分子,未来若能在更大模型与更大规模分子数据上进行预训练,预期会进一步提升分子表示学习与下游任务的整体性能。总的来说,研究团队期望KPGT能够作为一种通用的自监督学习框架,为加速AI辅助药物发现提供有力支持。