JACS 2025 | Xrd2Mof: 基于生成式人工智能解读金属-有机框架的X射线衍射图谱

今天介绍的这项工作来自 Journal of the American Chemical Society。该论文提出Xrd2Mof,一种面向金属-有机框架(MOF)生成式人工智能模型,目标是在高通量实验中仅凭粉末X射线衍射(PXRD)图谱,并结合已知的金属节点元素身份有机连接体SMILES信息,直接重建候选晶体结构。方法上,首先用粗粒化表示将MOF抽象为连接点晶胞参数等关键几何信息,弱化有机连接体原子细节对XRD主峰贡献较小带来的噪声,再以CLIP式多模态特征提取对齐“语义输入”(PXRD+构件信息)“视觉输出”(粗粒度结构),随后采用Stable Diffusion在化学先验约束(如电荷守恒价态规则)下生成粗粒度骨架拓扑。最后通过约40万构件数据库ECFP索引检索完成构件匹配与组装,对双连接体体系引入Ewald求和预测连接体分布,并用UFF优化获得物理合理的原子结构。性能评估显示,粗粒化后的模拟XRD与原子结构模拟图谱高度一致,Grad-CAM进一步表明模型注意力集中在关键2θ主峰区间,支持其确实学习到与结构相关的判别特征;在匹配10个候选结构时,单连接体与双连接体MOF的主峰匹配成功率均超过93%,且对叠加杂质峰的图谱仍保持约90.6%的整体成功率,并在部分真实实验PXRD示例中能生成与真实结构高度相似的结果。整体而言,Xrd2Mof为自驱动实验室中自MOF的自动化结构解析自提供了可落地路径。

获取详情及资源:

0 摘要

金属-有机框架(MOFs)因应用场景丰富且结构可调而受到广泛关注。粉末X射线衍射(XRD)是实现MOFs高通量表征的关键手段,但由于MOFs几何结构类型多样且复杂,要对XRD数据进行自动化解读仍然具有挑战性。提出了一种基于Stable-Diffusion架构的生成式人工智能框架,用于从粉末XRD图谱中解析MOFs结构,该模型命名为Xrd2Mof。Xrd2Mof通过采用粗粒度表征方案引入领域知识,在将目标XRD图谱对应到真实MOF结构的识别任务中,准确率超过93%。该方法能够直接推广到覆盖几乎所有框架拓扑类型的多样MOF结构,从而为自驱动实验室中的MOFs自动化结构分析提供了一条新的技术路径。

1 引言

金属-有机框架(MOFs)自1995年被提出以来,由于其性质多样且结构可调,在设计、合成、表征与应用等方向的研究迅速发展。MOFs是一类由金属节点与有机配体通过配位相互作用连接而成的多孔聚合材料,可构筑特定的网络结构。得益于优异的孔隙率与高比表面积,MOFs在气体储存、分离与催化等领域展现出重要价值;近年来,合成策略的进步进一步推动其在生物分子表面涂层、光电存储计算、药物递送、燃料电池与超级电容器等方向的拓展。MOFs研究的核心之一在于结构设计与结构解析,而近年兴起的全自动机器人实验室(亦称自驱动实验室)可通过高通量实验加速这一过程,在此背景下,X射线衍射(XRD)对于高效解析MOFs原子尺度晶体结构具有关键作用。

以往针对新合成MOFs的确定性结构求解通常依赖单晶X射线衍射(SXRD),该方法能够提供精确的原子位置信息,从而完成三维结构的重建。然而,SXRD需要制备足够大的单晶并进行较为复杂的精修流程,实验与分析成本较高,因此难以适配高通量表征。相比之下,粉末X射线衍射(PXRD)可在缺乏单晶的条件下用于阐明材料的原子结构,与自动化MOF合成平台兼容性更强,但MOFs的PXRD图谱往往难以提供充分的原子级细节信息。将PXRD用于MOFs结构识别的关键在于,需要在对PXRD图谱进行指标化之前准确预测框架几何,否则峰重叠会显著削弱图谱匹配的可靠性。现有方法尚难以在缺乏专家干预的情况下,仅依赖PXRD数据实现对MOF家族多样结构的高精度、通用化自动解读,这也限制了其在自驱动实验室中的落地。

人工智能的发展为自动化PXRD解读带来了新的可能。此前已有工作利用卷积神经网络(CNNs)等算法,在无机化合物的PXRD物相识别方面取得进展,但由于MOFs结构复杂度更高,面向无机体系的模型难以直接迁移。与此同时,多个公开数据库已积累了大规模MOF结构数据,例如剑桥结构数据库(CSD)、CoRE MOF 2019与RCSR等,使得基于模拟生成的PXRD图谱来训练MOFs解读模型变得更加可行。已有研究提出XtalNet,在模拟MOF数据集生成的合成PXRD数据上预测晶体结构,但其有效性主要局限于特定的模拟结构集合,在面对实验样品的PXRD数据时,预测精度仍存在明显差距。

为应对MOFs自动化PXRD解读的挑战,相关工作提出了一种将领域知识融入框架的生成式人工智能模型。生成模型通常可在大规模成对数据的支持下学习文本描述与图像结果之间的对应关系,从而实现从输入到可视化输出的生成式推断。在该研究中,PXRD图谱被视为“文本”输入,MOF结构被视为“图像”输出,从而将PXRD到结构的解析问题转化为文本到图像的生成任务。基于Stable Diffusion架构,研究构建了名为Xrd2Mof的生成模型,用于从PXRD数据中解码MOF结构。模型采用由领域知识引导的粗粒度表示来简化MOF结构,在保留PXRD解读所需关键几何信息的同时降低结构表征复杂度。通过在从CSD提取的79,658条MOF数据上训练,Xrd2Mof在给定PXRD图谱时能够以约93%的准确率识别出最可能与输入图谱匹配的候选结构;模型覆盖了已知MOF拓扑类型,并可按需扩展以适配更大、更复杂的结构类别。基于实验获得的PXRD图谱验证显示该方法具有良好表现,同时研究还进一步分析了模型的可解释性,用于阐明内部特征提取过程如何影响MOF结构的生成,为面向MOFs设计的PXRD自主结构分析奠定基础。

图1 | 展示了生成式人工智能用于生成艺术作品与原子结构的总体示意图。 (a)典型的文本到艺术绘画生成模型:在预训练阶段,将大规模文本-图像配对数据输入模型,使其学习从语义描述到视觉表征的映射关系,从而优化对场景特征的理解;随后,生成模型通过扩散模型等架构综合这些能力,以迭代方式不断细化潜在表示,最终生成与输入描述一致的艺术作品。(b)利用PXRD图谱解析高通量实验合成MOF晶体结构的生成式人工智能模型:除PXRD图谱外,金属节点与有机连接体的组成信息也作为输入;同时引入用于有效表征MOF骨架几何的粗粒度表示,以促进MOF结构的生成与解析。

2 结果

2.1 Xrd2Mof的模型架构

Xrd2Mof由三个核心阶段构成:特征提取、粗粒度结构生成与构件组装。在特征提取阶段(图2a),训练集中的MOF结构首先通过MOFid编码转换为粗粒度结构表示,以金属节点与有机连接体作为基本构件。随后构建了一种基于CLIP思想的多模态特征提取流程,将MOF构件信息与XRD图谱作为“语义描述”输入,将MOF的粗粒度结构作为“视觉表征”输出进行对齐学习。金属节点的表征来自pymatgen库中提取的金属元素基础性质,有机连接体则通过图神经网络编码其几何结构,模拟XRD图谱的信息由CNN提取。与部分既有工作不同,该方法认为有机连接体的坐标信息相较金属节点的重要性更低,因此将有机连接体的位置简化为其质心,这与XRD主峰主要由重原子贡献、尤其是金属节点贡献更显著的经验认识一致,也构成采用粗粒度结构表示策略的关键动机。在粗粒度表征中,原子位置被抽象为连接点的三维坐标并输入一个CNN(称为Atom CNN),而晶胞参数输入另一个CNN(称为Lattice CNN);随后使用CLIP中常用的余弦相似度作为匹配机制,比较语义描述与视觉表征的嵌入向量以完成对齐。

图2 | 展示了Xrd2Mof的模型架构。 (a)预训练特征提取模型的框架:模型输入包括由结构数据库提取的模拟XRD图谱、金属节点与有机连接体;不同类型特征分别由专用神经网络处理,其输出经融合层整合后,再通过投影层映射为特征向量,并与结构向量计算相似度得分;训练完成后,该模块被冻结以提供固定的特征向量。(b)Xrd2Mof的整体流程:首先进行特征提取得到特征向量,随后以此引导粗粒度结构生成;生成的结构再与数据库检索到的构件进行匹配,组装得到最终原子结构,并通过力场方法进行优化;该模型在预设化学原则约束下捕获关键结构特征并生成候选结构,由于过程具有内在随机性,会产生多个候选结构以供进一步筛选。(c)结构生成模型的框架:以特征向量作为晶体结构生成的条件;训练阶段依据化学先验知识初始化原子价态与原子类型,并在特征向量与扩散时间步的引导下迭代细化;生成阶段则按相反方向重复该过程以完成结构生成。

在完成特征提取后,生成模型用于针对目标XRD图谱生成相应的粗粒度结构,并将构件信息作为附加输入(图2b)。该阶段采用源自MOFdiff的Stable Diffusion架构,能够将前述嵌入直接融入结构生成过程(图2c)。为确定连接点数量,方法引入电荷守恒原则以建立最小金属-连接体配比:金属离子的化合价根据实验前驱体进行明确指定,有机连接体的价态则依据从SMILES字符串到标准价态连接体单元的映射表,在综合数据库中进行推断。需要注意的是,在训练生成模型时,输入向量中金属节点的位置被置于更高优先级,以便在XRD图谱的约束下更合理地指导后续构件装配。

在构件组装阶段,研究建立了约40万条构件的数据库,并按扩展连接指纹(ECFP)建立K维树检索库以加速匹配。对于单连接体MOF(约占数据集的60%),有机连接体按比例并以顺序方式分配到粗粒度结构的连接点上;对于双连接体MOF(约占数据集的26%),连接体分布通过Ewald求和方法进行显式预测,以在大量组合可能中筛选出能量最有利的构型。随后选取10个候选结构,使用通用力场(UFF)进一步优化,从而得到物理上更合理的MOF结构作为Xrd2Mof的最终输出。

2.2 模型性能

CLIP特征提取模型是后续结构生成与构件组装的基础,因此其可靠性至关重要。该研究在建模时仅考虑连接点数量少于50的粗粒度结构,这覆盖了数据库中约99%的MOF结构;同时,模型仍可处理包含数百乃至上千原子的MOF体系(图3a),在可覆盖结构规模上明显超过既有报道。对比表明,粗粒度结构计算得到的模拟XRD图谱与对应原子结构的模拟图谱具有较高一致性,说明关键衍射特征能够被可靠保留(图3b);其中出现的峰分裂差异,可能与粗粒化过程中忽略有机连接体的原子细节有关。为提升泛化能力,训练数据通过对连接体结构进行随机官能团化以及对金属节点进行替换来扩增(表S1、S2与图S1)。在约10,000个MOF组成的测试集上评估特征提取能力时,对每个查询结构生成编码特征并检索最相似的前10个MOF,平均匹配准确率达到90.3%,显示出较强的分类与匹配性能(图3c、3d)。

图3 | 展示了Xrd2Mof预训练特征提取模块的性能。 (a)针对MOF结构专门设计的粗粒化流程示意图。(b)粗粒化前后模拟XRD图谱的对比。(c)在测试集中随机选取100个结构类别得到的混淆矩阵,其中对角线元素表示被正确分类的样本。(d)预训练模型的匹配准确率随候选结构数量变化的关系。

由于Stable Diffusion具有随机性,生成更多候选结构通常会提高复现真实晶体结构的概率。为此,研究依据电荷中性规则生成4个具有不同连接点数量的原始结构,并在此基础上得到一系列候选晶体结构。预测精度通过主峰匹配方案进行量化:将目标XRD图谱中的主要衍射峰与候选结构计算得到的衍射峰进行对比,采用预设角度容差,并约束每个峰仅匹配一次;当至少10个峰达到高度对齐时,两条XRD图谱被判定为一致(图S2)。图4a给出了在匹配不同数量候选结构时,Xrd2Mof在单连接体与双连接体MOF上的成功率,其中成功率定义为测试集中样本中至少存在一个预测候选结构,其XRD图谱与真实结构的模拟XRD图谱能够良好匹配的比例。在匹配10个候选结构时,单连接体与双连接体体系的成功率分别达到93.4%与96.2%,已接近匹配50个候选结构时的水平。值得注意的是,双连接体体系的成功率略高于单连接体体系,可能与深度生成模型在独立变量数量增加时拟合能力提升有关,对应更具表达力的表示空间(图S3)。此外,基于目标XRD图谱与候选结构模拟图谱之间的平均余弦相似度也能获得较高的匹配水平(图4b),因此将10个候选结构的结果作为Xrd2Mof的最终输出。

同时,主要衍射峰通常集中在低角度区域,即2θ位于530(见图S4与S5),使得主峰匹配在比较两条XRD图谱时相较余弦相似度更为可靠,因此该研究采用主峰匹配作为性能评估标准。为进一步优化模型表现,研究还评估了多种网络结构配置与XRD处理策略,并比较了Ewald求和计算中不同候选数量的设置(图S6)。由于模型在模拟XRD图谱上训练,应用于实验数据时性能可能下降,但以一个已报道样品的XRD图谱示例为例(CSD ID:ALICEE),尽管预测与真实XRD图谱在角度上存在轻微偏差,生成的MOF结构仍与真实结构高度相似(图4c)。预测图谱中出现的一些额外峰,可能源于构件组装阶段对连接体取向预测的误差。总体而言,Xrd2Mof在基于实验MOF XRD图谱进行结构生成方面仍展现出较高的准确性与稳健性。

图4 | 展示了Xrd2Mof结构生成模块的性能。 (a)在匹配不同数量候选结构时,单连接体与双连接体MOF的主峰匹配率。(b)在匹配不同数量候选结构时,预测XRD图谱与真实XRD图谱之间余弦相似度的分布。(c)基于真实实验数据进行结构生成及其对应的XRD图谱(其中真实XRD图谱指由真实MOF结构直接模拟得到的图谱)。

2.3 粗粒化表示的作用

该部分旨在分析MOF的粗粒度表示在Xrd2Mof预测能力中的关键性,并借助Grad-CAM对这一机制进行可视化检验,以判断模型的高准确性究竟来自对判别性特征的捕捉,还是对数据伪影的过拟合。Grad-CAM可用于展示训练好的卷积结构在输入上的注意力分布,当作用于XRD图谱时,能够突出最具区分度的2θ区间,从而揭示Xrd2Mof中CLIP模型的决策依据。以从CSD随机选取的一个MOF结构(ID:ABADUG)为例(图5a),其粗粒化结构模拟得到的主要衍射峰与原子结构模拟结果高度对应,说明粗粒化能够有效保留XRD图谱中与结构相关的关键特征;同时,Grad-CAM在这些主要衍射峰处呈现出显著更高的注意力,表明特征提取过程能够成功抓住XRD解读所需的核心2θ区域,从而凸显粗粒化在建立XRD图谱与对应MOF结构映射关系中的重要作用。

图5 | 展示了Xrd2Mof特征提取过程的Grad-CAM分析。 (a)测试集中ABADUG的XRD图谱及对应的Grad-CAM热力图。(b)两种具有相同构件但分布不同的MOF的XRD图谱及其对应的Grad-CAM热力图。

进一步地,该研究比较了两种由相同构件组成的MOF(图5b)。两者的有机连接体分布模式明显不同,而金属节点分布相对相近,因此XRD图谱差异主要体现在次级峰的变化上。尽管差异较小,Grad-CAM结果仍显示CLIP模型能够辨识这些变化,其原因很可能来自两者粗粒化结构的差异。综合来看,CLIP模型的高匹配准确率与粗粒度表示方案密切相关。

粗粒化对Xrd2Mof结构生成阶段的价值可通过图6中的两个案例得到更直观的说明。粗粒度结构保留框架拓扑信息,同时舍弃构件内部的原子位置细节,从而显著降低自由度,有助于模型更容易学习XRD图谱与MOF结构之间的内在映射。由于训练数据规模仍不足以直接生成包含数百原子的晶体结构原子坐标,而这恰是CSD中多数MOF的常见情形,粗粒化使模型将关注点从原子层面转移到构件位置层面,并将MOF结构数据压缩约一个数量级,从而帮助扩散模型更准确地复现真实结构中的局部连接关系,即框架拓扑。对于图6a所示的单连接体示例,预测结构与真实结构在拓扑上高度一致,表现为每个金属节点连接两个有机连接体,且每个连接体结合两个金属离子;这种拓扑一致性带来了预测与真实XRD图谱之间显著的相似性。对于图6b所示的双连接体情形,组装阶段引入的Ewald求和方法与粗粒化表示相互配合,使生成结构能够保持与真实结构相同的框架拓扑;即便有机连接体构象存在明显差异,预测XRD图谱仍与真实图谱保持高度一致。总体而言,这些结果表明,粗粒度表示方案是生成式模型能够有效解读MOF XRD图谱的关键要素。

图6 | 展示了Xrd2Mof结构生成过程中框架拓扑的对比。 (a)单连接体MOF的结构生成结果及其对应的模拟XRD图谱,其中XRD图谱中高亮的峰与框架结构相关。(b)双连接体MOF的结构生成结果及其对应的模拟XRD图谱。

3 讨论

自动化自驱动实验室通过持续的数据驱动与反馈控制实验,正在改变传统“试错”式研究范式。此类系统将机器人、机器学习与实时数据分析结合起来,能够在较少人工干预下自主完成材料的设计、合成与表征,从而显著提升研究流程的效率与可重复性。目前,无机材料与有机分子领域已取得一系列进展。与面向无机化合物的模型类似,用于MOFs的生成式AI通常基于既有结构数据库模拟目标性质或表征信号,但往往受限于可处理的MOF最大原子数,导致难以覆盖大量真实实验样品。Xrd2Mof通过显式引入粗粒化策略,将化学先验知识融入特征提取与结构生成过程,从而在解读CSD中几乎所有MOF的XRD图谱方面获得了较有前景的准确性,也使其有望成为自驱动实验室中面向MOFs开发的一项实用组件。该方法能够在高通量合成实验中,直接利用易获取的PXRD数据重建原子结构,从而加快实验迭代并提升发现高性能MOF的效率。由于模型覆盖了几乎所有框架拓扑类型,因此可较为顺畅地嵌入现有的高通量MOF工作流中。

该模型的实际应用通常假设能够获得MOF合成所用前驱体金属与连接体的结构信息,尤其是金属节点的元素身份以及有机连接体的SMILES字符串。金属节点的组成信息在合成前通常容易获得,同时需要强调的是,前驱体中有机分子的结构信息也可以作为MOF连接体的可靠输入,因为MOF合成一般在相对温和的条件下进行,通常远低于多数连接体的热分解温度,有机连接体往往不会在合成过程中分解,而是保持分子完整性,通过配位键与金属离子或簇结合形成框架。明确金属节点成分与有机连接体结构能够将生成模型引导至更合理的化学空间,把搜索范围从“所有可能结构”收缩到更可行的子集,从而降低生成化学上不合理构型的概率并提高预测准确性。此外,MOF的PXRD图谱中尖锐峰通常主要对应金属-金属距离与晶胞尺度,有机连接体对强度贡献较小;因此,将有机连接体结构作为模型输入也能在一定程度上弥补PXRD解读中对连接体信息不敏感的固有不足。

尽管如此,Xrd2Mof仍存在一些局限。其一,若缺乏可靠的金属与连接体信息,模型无法生成与目标PXRD图谱对应的结构;并且在少数情况下,有机连接体可能在MOF合成过程中发生原位反应或分解生成新物种,虽然这类反应通常是有意设计而非偶然发生,但若SMILES信息提供不正确,结构预测将不可避免地产生偏差。其二,许多MOF在特定溶液环境中合成,实验XRD图谱往往包含难以避免的杂质信号;Xrd2Mof未将溶剂分子纳入结构生成,尽管它们可能存在于MOF结构中,原因在于将这些通常不属于框架拓扑的分子纳入训练会显著降低结构生成准确性。尽管如此,相关工作通过在模拟PXRD图谱中叠加杂质峰对模型稳健性进行了检验,结果表明整体匹配成功率仍可达到90.6%(图S7与图S8)。其三,基于实验XRD图谱的验证仍显不足,因此未来有必要引入主动学习闭环,将更多实验数据纳入训练,以进一步提升Xrd2Mof在真实场景中的适用性与表现。

4 总结

该研究提出了Xrd2Mof,一种用于从MOF的PXRD图谱中直接重建晶体结构的生成式人工智能模型。Xrd2Mof能够嵌入高通量实验流程,在材料表征与结构解读之间建立更紧密的衔接。通过引入粗粒化策略,模型在无需重新训练的情况下即可适用于多种MOF结构类型,在预测准确性与计算效率之间实现了较好的平衡。在匹配10个候选结构时,单连接体与双连接体MOF的XRD图谱解读总体成功率均可超过93%。此外,该研究的思路有望从XRD推广到其他表征信号,例如红外、拉曼或核磁共振谱,从而为自驱动实验室中多模态表征技术的融合与自动化结构解析提供基础。