Angew. Chem. Int. Ed. 2026 | MMST: 基于灵活多光谱人工智能模型的结构解析方法进展

今天介绍的这项工作来自 Angew. Chem. Int. Ed. 。该研究围绕化学结构解析这一核心问题展开，提出了一种融合多种光谱信息的深度学习模型MMST。传统结构解析方法虽然已经引入计算机辅助工具，但在实际应用中仍高度依赖专家经验，尤其是在多种光谱数据综合解释方面，效率和一致性都受到限制。随着实验自动化和高通量合成的发展，快速且可靠的自动化结构解析方法变得愈发重要。该文章的主要创新在于构建了一个统一的多模态框架，将 $^{1} H$ NMR、 $^{13} C$ NMR、HSQC、COSY、IR和MS等不同类型的光谱数据进行联合建模，使模型能够直接从原始光谱信息生成分子结构。这种方法突破了传统CASE系统依赖数据库匹配和分步推断的局限，实现了从“光谱到结构”的端到端预测。此外，研究进一步提出了一种改进循环机制，通过在目标分子附近生成结构类似物并模拟其光谱，对模型进行快速再训练，从而显著提升模型在未知化学空间中的表现。这一点对于实际应用尤为关键，因为真实问题往往涉及训练数据之外的分子。实验结果表明，该模型不仅在模拟数据上表现优异，在实验光谱条件下也具备良好的结构解析能力，并能够在初始假设错误的情况下逐步修正结构。这说明多模态融合与动态适应机制能够有效弥合模拟数据与真实世界之间的差距，为自动化结构解析提供了一种具有实际应用潜力的解决方案。

获取详情及资源:

📄 论文: https://onlinelibrary.wiley.com/doi/full/10.1002/ange.202517611
💻 代码: https://github.com/mpriessner/MultiModalSpectralTransformer

0 摘要

化学合成是否成功的验证依赖于多种分析技术来确认目标产物。尽管光谱数据的获取过程正逐步实现自动化，但对这些数据的解释仍然是一个主要瓶颈，通常需要依赖专家经验。随着实验室自动化水平的提升以及高通量合成的发展，这一问题将变得更加突出。该研究提出了MultiModalSpectralTransformer（MMST），这是一种能够直接从多种光谱数据（包括NMR、IR和MS）预测化学结构的机器学习方法。模型基于400万条模拟化合物数据进行训练，在结构预测任务中取得了72%的top-1准确率和80%的top-3准确率。针对模型在分布外数据上的泛化问题，研究引入了一种主动学习式的改进循环，通过在相似化学空间中生成新分子，使模型能够适应训练数据之外的结构类型。通过在不同分子量范围和化学空间中的系统性测试，验证了MMST的有效性。值得注意的是，尽管模型完全基于模拟数据训练，但在真实实验光谱上的表现依然良好。整体来看，该工作在自动化结构解析领域取得了重要进展，提出了一种兼具准确性与适应性的工具，有效缩小了模拟数据与真实应用之间的差距。

1 引言

当设想未来的化学实验室时，人们通常会构想一个高度自动化的系统：研究者输入目标分子，软件自动规划合成路线，机器人执行反应，随后完成纯化，并由一系列分析仪器获取数据，最终通过自动化流程根据光谱数据确定分子结构。实现这一愿景需要多个环节的协同进步，包括合成路线预测、自动化合成与纯化等。其中，基于光谱数据的自动结构解析是整个流程中的关键环节之一。尽管光谱数据采集逐步实现自动化，但数据解释仍然高度依赖专家经验，成为主要瓶颈。在实验自动化与高通量合成不断发展的背景下，对快速、自动化结构解析方法的需求将进一步增强。该文提出了一种灵活的模型，能够直接将光谱数据转化为分子结构，同时克服现有计算机辅助结构解析方法的若干局限。

传统的CASE方法依赖光谱数据来推断分子结构，其中 $^{1} H$ 和 $^{13} C$ 核磁共振是最常用的技术，可以提供氢和碳原子的化学环境信息。二维NMR技术如COSY和HSQC进一步提供关键的原子连接信息。质谱用于确定分子量和分子式，红外光谱则有助于识别官能团，但其解释对人类而言较为困难。对于含有手性中心的分子，还需要额外实验来确定立体化学。由于不同光谱提供的信息各有侧重且具有局限性，结构解析通常需要整合多种数据来源。尽管现有方法已取得进展，但仍存在依赖数据库、适用范围有限以及多模态融合能力不足等问题。

在具体流程上，CASE方法通常包括三个步骤：光谱解释、候选结构生成以及候选结构排序。近年来，机器学习在光谱处理方面取得显著进展，例如基线校正和自动峰识别，但模型训练依赖大量高质量数据，而实验光谱数据难以获取，因此通常使用模拟数据，这在一定程度上限制了模型对真实数据的泛化能力。类似的问题也存在于结构排序阶段，通常需要通过模拟光谱与实验数据进行比较。虽然未来构建标准化的实验光谱数据库有望缓解这些问题，但覆盖庞大化学空间仍需较长时间。

尽管已有多种CASE工具，包括商业和开源软件，并且已有研究表明这些工具可以降低结构误判风险，但在实际应用中仍未被广泛采用。原因在于现有方法灵活性不足，难以适应新的化学空间。因此，一种能够融合多种光谱数据并具备快速适应能力的方法，有望提升结构解析在实际中的可用性。

近年来的研究表明，基于Transformer架构的方法在利用 $^{1} H$ 和 $^{13} C$ NMR进行结构解析方面表现出良好效果，同时也有工作展示了仅利用IR光谱进行结构预测的潜力。在此基础上，该文提出MultiModalSpectralTransformer（MMST），在统一的Transformer框架中整合 $^{1} H$ NMR、 $^{13} C$ NMR、HSQC、COSY、IR和MS等多种光谱信息。模型通过注意力机制同时建模不同输入之间的关系，从而能够综合多源信息解析复杂分子结构。

该模型具有较强的灵活性，可以扩展至更多光谱类型。不同光谱数据首先被嵌入并编码为统一特征向量，然后输入Transformer进行解码，生成与输入光谱和分子量一致的候选结构。在生成过程中，既采用贪心策略得到最可能的单一结构，也通过多项式采样生成多样化候选分子。随后利用模拟HSQC光谱对候选结构进行排序，从而筛选最符合输入数据的结构。论文中的图1展示了从光谱输入到结构生成与排序的整体流程。

为了提升模型的可解释性，研究进一步分析了不同光谱类型对性能的影响。同时指出，尽管依赖模拟数据存在一定局限，但只要覆盖足够的化学空间，模型仍可获得良好表现。为了解决模型在新化学空间中的泛化问题，提出了一种改进循环策略，通过模拟生成额外光谱数据动态扩展训练分布，使模型能够在处理实验数据时具备更强的适应能力。该策略不依赖外部标注，而是通过生成目标分子的结构类似物并利用其模拟光谱进行微调，实现一种自我修正的学习机制，从而有效提升模型在复杂化学空间中的表现，并增强其在实验光谱解析中的能力。

图1｜MMST模型的结构示意图。 输入的光谱数据包括二维NMR、一维NMR、IR和MS，这些数据通过嵌入和编码层处理后被整合为一个统一的特征向量。该向量随后被解码，用于生成分子结构，可以通过多项式采样生成一组候选分子，或通过贪心采样生成最可能的单一结构。在多项式采样的情况下，通过比较模拟HSQC光谱与原始输入光谱，对生成的分子结构进行排序。关于MMST的优化与训练细节可参考补充信息第1部分及图S1。

2 结果和讨论

2.1 MMST性能表现

为评估MMST模型的有效性，该研究在一组具有代表性的多样化分子数据上进行了测试。基础模型的性能通过从ZINC数据库中随机选取的4000个化合物进行评估，这部分数据约占完整测试集的1%。针对这些分子，首先模拟生成其NMR和IR光谱数据，并结合计算得到的MS信息，输入MMST模型进行结构预测。在仅使用贪心采样策略时，模型对正确分子结构的识别准确率达到60%。当采用多项式采样以探索多种可能结构时，模型的预测能力显著提升。结合HSQC光谱匹配与排序方法，MMST能够仅基于光谱数据在72%的样本中将正确结构排在首位；在top-3预测范围内，正确结构的命中率进一步提高至80%。此外，模型在绝大多数测试样本上都能够生成至少一个合理的分子结构，仅有约0.2%的情况未能生成有效结果。这一极低的失败率表明，即使在未能准确预测目标结构的情况下，模型仍能够输出化学上合理的候选结构，体现出良好的稳定性与可靠性。基于上述结果该研究进一步考察了在输入信息受限的条件下模型的鲁棒性，以评估其在实际应用场景中的表现。

2.2 光谱模态对模型性能的影响

在实际应用中，某一化合物往往无法同时获得全部类型的光谱数据，因此有必要明确不同光谱对模型性能的影响程度。为此，研究采用消融实验系统评估各类光谱输入的重要性。具体方法是逐一去除某一种光谱模态，并在缺失该数据的条件下进行一次微调训练。在生成阶段，仅使用贪心采样生成单一分子，从而避免排序步骤对结果的影响。模型性能通过四项指标进行评估，包括无效分子生成比例、生成正确SMILES的概率、贪心匹配准确率以及生成分子与目标分子之间的平均Tanimoto相似度（取值范围为0到1）。这一设计能够直接反映模型在不同光谱输入下学习“光谱—结构关系”的能力。

在超过49万条未参与训练的ZINC分子数据上得到的结果表明，二维NMR数据，尤其是HSQC和COSY，对模型性能具有决定性影响。去除HSQC或COSY后，无效分子生成比例显著上升（分别为9.2%和7.9%，而完整输入时仅为2.0%）。在生成正确SMILES的概率上，去除HSQC导致性能从0.51骤降至0.04，COSY缺失时下降至0.06。在精确匹配准确率方面，完整输入时为59.7%，而去除HSQC或COSY后分别降至7.7%和8.1%。平均Tanimoto相似度同样显著下降，从0.82降至0.43（无HSQC）或0.48（无COSY）。相比之下，去除 $^{1} H$ 和 $^{13} C$ NMR仅带来中等程度的性能下降，而IR光谱的缺失几乎不影响整体表现。尝试去除分子量和分子式信息时，模型无法稳定生成有效结构，这表明这两类信息在模型架构中起到基础约束作用，无法像其他模态那样单独移除。

这一结果与结构解析领域的发展历程高度一致。二维NMR技术的引入曾显著推动结构解析方法的发展，其优势在于通过第二维度分散信号，从而缓解峰重叠问题，使谱图更易解释。HSQC能够直接提供碳氢连接信息，而COSY揭示氢之间的耦合关系，这些信息对于确定分子骨架至关重要图2。相比之下，一维NMR虽然信息丰富，但由于峰重叠和裂分复杂，容易产生歧义。

尽管二维NMR最为关键，模型在部分光谱缺失情况下仍表现出一定的补偿能力。例如在缺少 $^{13} C$ 谱时，模型仍能利用其他模态维持一定性能。此外，IR光谱影响较小的现象需要谨慎解读，这可能与所采用的模拟方法有关，在不同模拟方式或真实实验数据下，IR的重要性可能会有所提升。值得注意的是，该消融实验基于在完整模态上预训练的模型进行微调，因此并不能完全反映仅使用部分光谱从头训练模型的潜力。已有研究表明，仅依赖IR与分子式也可以取得一定效果，说明模型在特定任务下能够强化对有限数据的依赖。

总体而言，该结果表明，对于多模态结构解析系统而言，优先获取HSQC和COSY数据是提升解析准确性的关键策略，尤其在时间和资源受限的情况下具有重要意义。同时，不同模态之间性能差异体现了模型内部光谱表征能力的本质差别，这种差异在更复杂的采样与排序策略中仍将持续存在。

出于计算效率考虑，研究还在缩小至原测试集1%的数据子集上进行了验证。结果表明，小规模测试集与完整数据集在性能趋势上高度一致，仅在数值上存在轻微差异。这说明使用较小测试集可以在不影响结论可靠性的前提下显著降低计算成本，为后续实验提供了高效评估方案。

图2｜MMST模型的消融实验结果。 该图分析了去除不同光谱模态对模型性能的影响，包括a)生成无效分子的比例，b)生成正确SMILES的概率，c)精确匹配准确率（Tanimoto=1.0），以及d)平均Tanimoto相似度。图中还以橙色标出了使用较小数据集（1%数据）得到的结果，用于对比分析。

2.3 适用域分析

尽管模型在与训练数据相似的分子上表现出较强性能，但研究进一步关注其在训练分布之外化学空间中的表现能力。通常认为，机器学习模型难以对超出训练数据范围的样本进行有效泛化，这一问题被称为“适用域”。

MMST最初基于ZINC数据库中的化合物进行训练。为了评估其在更广泛分子范围内的表现，研究选取了PubChem数据集中的样本进行测试，并确保这些分子未出现在训练数据中。测试数据按照分子量划分为三个集合：0–250 Da、250–350 Da以及350–500 Da，每组各包含1000个分子。考虑到训练数据的分子规模主要集中在中间区间，预期模型在250–350 Da范围内表现较好，而在较小或较大分子上可能面临挑战。

为了分析模型学习到的化学空间分布，研究将每个分子的多模态光谱输入经过编码器处理，得到一个统一的特征向量，并对编码结果取平均作为该分子的整体表示。随后利用t-SNE方法将这些高维表示降维至二维空间，从而可视化不同数据集之间的分布关系。结果显示，小分子集合和大分子集合在特征空间中更多分布在外围，而中等分子集合分布相对更接近训练数据，但三个集合整体上仍与训练集存在明显差异。

这种分布差异直接反映在模型性能上。中等分子集合取得了最佳结果，其top-1准确率为43%，而小分子和大分子集合分别为39%和13%。这一结果表明，模型在接近训练分布的区域具有较好性能，但在偏离原始化学空间时表现明显下降。

基于上述分析，可以得出结论：为了在新的化学空间中获得良好性能，MMST需要进行针对性的微调。因此，引入能够动态扩展适用域的自适应机制成为关键，这也为后续提出的改进循环策略奠定了基础。

图3｜MMST模型在不同分子量范围下的适用域分析结果。 基于MMST提取的特征向量，通过t-SNE方法可视化了ZINC训练集（蓝色）与PubChem测试集（橙色）在化学空间中的分布差异。不同分子量范围包括a)0–250 Da，b)250–350 Da，c)350–500 Da。结果显示，各测试集与训练数据之间的重叠程度不同，其中第二组（250–350 Da）与训练数据分布最为接近。d)给出了MMST在三个测试集以及ZINC测试集上的top-1准确率作为参考，其中“failed”表示生成了无效分子结构的情况。

2.4 失败预测的改进循环机制

由于化学空间极其庞大，任何模型都无法覆盖全部分子结构。为了解决这一问题，研究提出了一种迭代式改进循环机制，使模型能够通过模拟数据在特定化学空间中进行自我学习与调整。该方法引入生成模型，为目标分子生成一组结构相似的类似物，从而构建针对性的训练数据集。随后对这些类似物模拟其对应的光谱数据，使模型能够扩展对相关化学空间的认知，从而在不依赖额外实验数据的情况下实现动态适应。

具体而言，该改进循环首先利用Mol2Mol模型为一个候选分子生成约30个结构相近的类似物。随后，通过神经网络与重建算法为这些类似物生成 $^{1} H$ 、 $^{13} C$ 、HSQC、COSY以及IR光谱数据。利用这些模拟光谱对MMST进行再训练和微调，使模型聚焦于目标分子周围的化学空间。

在不同类似物数量（10、30、50、100）条件下的系统评估表明，30个类似物通常能够在计算效率与预测性能之间取得最佳平衡。当类似物数量超过这一规模时，性能提升趋于饱和。对于较大分子（350–500 Da），增加类似物数量仍能带来一定提升，但总体收益有限。因此，30个类似物被选为默认配置，以兼顾效果与计算成本。

该改进循环在修复初始预测失败方面表现出显著效果。在每个测试集合中选取100个失败样本进行处理后，模型的top-1准确率提升至57%至72%之间，同时失败率保持在1%以下。这表明该方法不仅能够显著提升预测准确性，还具有良好的稳定性。在计算开销方面，每个分子一次完整循环大约需要20至30分钟（基于NVIDIA V100 GPU），包括类似物生成、光谱模拟以及模型微调等全部步骤。计算时间主要受分子复杂度及生成类似物所需迭代次数的影响。整体结果表明，即使仅使用30个类似物进行针对性训练，也能够显著提升结构识别能力，从而有效弥补基础模型在适用域上的不足。

进一步分析表明，将改进循环应用于更广泛的数据时存在一定权衡。当使用来自不同测试集失败样本的类似物构建统一训练数据后，模型在分布外数据（较小或较大分子）上的性能有所提升，但在与原训练分布更接近的数据上出现轻微下降。这说明该方法更适合用于针对特定问题的局部优化，而非作为通用再训练策略。这一现象反映了模型微调过程中常见的性能迁移问题。除了提升性能之外，研究还尝试理解模型失败的原因。通过分析生成过程中token级概率，初步发现较低的概率值可能对应结构预测中的不确定区域。这一方法为评估模型置信度提供了潜在途径，但仍需进一步验证。

在验证多模态方法有效性之后，研究进一步将MMST与现有方法进行对比。已有研究表明，仅基于IR光谱与分子式也可以实现结构解析。因此，接下来对MMST与该单模态方法在同一数据集上的表现进行了系统比较，以评估多模态融合带来的优势。

图4｜MMST改进循环的设计及其在不同分子量范围下的效果。 a)给出了用于提升MMST模型性能的改进循环流程示意图，其关键步骤包括类似物生成、光谱模拟以及模型再训练与微调。b)展示了在每个数据集中随机选取100个预测失败的分子后，应用改进循环后的模型性能分析结果。

2.5 与仅IR方法的对比评估

为了评估MMST相较于单一模态方法的性能优势，研究将其与一种基于IR光谱的结构解析方法进行对比。该对比方法结合IR光谱与分子式信息，在此前工作中已达到较高水平。其训练数据来源于分子动力学模拟生成的IR光谱，并采用PCFF力场进行计算。然而，这种模拟方式在每个分子计算前需要进行平衡过程，计算成本较高，同时难以覆盖大分子的构象空间，因此该方法主要局限于仅包含6–13个重原子的较小分子体系。

为了保证对比公平性，研究在相同的数据集上从头训练了一个新的MMST模型。由于该数据集中仅包含IR相关信息，且缺乏其他模态的实验数据，无法完全复现原方法中的实验微调步骤，因此对比基于模拟数据进行。尽管如此，该设置仍能够在受控条件下合理评估两种方法的相对性能。

化学空间分析显示，该数据集与原始ZINC训练集存在显著差异，尤其在分子量分布上更偏向于较小分子。这种差异使得无法直接在原模型基础上进行微调，而需要重新训练模型。训练过程采用两阶段策略，首先进行SMILES重建训练，然后进行多模态训练，并通过光谱随机丢弃策略适配仅IR输入的情况。尽管训练数据来源于该数据集，模型仍利用了所有可用的模拟光谱模态，包括 $^{1} H$ 、 $^{13} C$ 、HSQC、COSY、IR以及MS信息，以评估完整多模态架构在该化学空间中的表现。

对比结果表明，MMST在多个评估策略下均优于IR+分子式方法。在基础模型层面，MMST在贪心采样下达到54.3%的准确率，在多项式采样下为50.0%，均高于对比方法的45.3%。进一步分析不同采样规模下的表现，在不使用HSQC排序的情况下，MMST在所有采样规模中均表现更优。随着采样数量增加，模型性能持续提升，例如当采样数量为10时，MMST的准确率达到84.0%，而对比方法为78.5%。这表明生成多样化候选结构对于提高预测成功率具有重要作用。

此外，引入HSQC光谱匹配排序后，MMST的top-1准确率进一步提升至83.9%。这一结果说明，只要正确结构出现在候选集合中，通过光谱匹配能够有效识别，从而显著提升整体预测性能。

总体来看，多模态光谱信息的融合显著增强了模型对复杂“光谱—结构”关系的学习能力，相较于单一模态方法具有明显优势。在验证了模拟数据条件下的竞争力之后，研究进一步考察模型在真实实验数据条件下的表现，以评估其实际应用潜力。

图5｜ZINC数据集与Alberts数据集在化学空间和分子量分布上的比较结果。 a)基于1024位Morgan指纹，通过t-SNE可视化两者在化学空间中的分布情况，显示出明显不同的聚类模式。b)比较了两个数据集在70–370 Da范围内的分子量分布差异。c)给出了MMST与IR+分子式方法的性能对比结果，柱状图上方标注准确率百分比，柱内标注正确预测的分子数量。

2.6 实验验证

MMST模型完全基于模拟数据训练，在训练过程中未接触任何真实实验光谱。为评估其在真实应用场景中的表现，研究选取了34个化合物，并收集其完整的实验光谱数据，包括 $^{1} H$ 、 $^{13} C$ 、HSQC、COSY、IR以及MS。这些数据来源于已有公开数据集，并经过人工峰提取与严格筛选，去除了存在峰归属不明确、伪影或光谱不一致的问题样本，以保证评估的可靠性。

实验光谱在输入模型前同样经过人工处理，以去除明显噪声和异常信号。这一设置旨在在受控条件下评估多模态方法的基础能力，而非测试模型对噪声的鲁棒性。尽管如此，相比模拟数据，预期模型在实验数据上的表现仍会有所下降。为应对这一挑战，研究结合改进循环机制对模型进行增强。

结果表明，在使用模拟光谱作为输入时，基础模型在这些分子上仍表现良好，top-1准确率为58%，top-10为61%。然而，当直接使用实验光谱时，性能显著下降，top-1和top-3均为0%，top-10仅为3%。这一显著差异主要源于实验数据与训练数据在化学空间上的偏离。通过t-SNE分析可以观察到，实验数据在特征空间中分布于训练数据之外，而模拟数据仍处于训练分布范围内，这解释了模型在两类输入上的性能差异。

为弥合这一差距，研究设计了两种改进循环策略，以模拟实际结构解析场景。一种策略直接以目标分子为起点进行改进循环，另一种则从区域异构体出发，即从一个结构相似但错误的候选分子开始。这种设置更接近真实研究过程，因为实际工作中往往基于初步分析提出不完全正确的结构假设。

在“以目标分子为起点”的策略下，改进循环在模拟数据上取得了极高性能，top-1达到97%，top-3和top-10均达到100%。更重要的是，在实验数据条件下，模型性能显著提升，top-1达到31%，top-3达到56%，top-10达到81%。这表明，即使模型未接受任何实验数据训练，仍能够通过动态扩展适用域来有效解析实验光谱。

在“以类似物为起点”的策略中，模型从错误结构出发进行优化。这些类似物与目标分子之间的Tanimoto相似度中位数为0.596，说明两者在结构上存在明显差异。尽管初始假设错误，模型仍能够逐步修正预测结果。在模拟数据条件下，top-1和top-3准确率分别为53%和56%；在实验数据条件下分别为12%和38%。这一结果表明模型不仅具备适应能力，还能够纠正初始结构假设中的偏差，这是结构解析中常见且关键的问题。

整体来看，改进循环显著提升了模型在真实场景中的实用性，使其能够在复杂条件下逐步逼近正确结构。为了便于实际应用，研究还开发了一个基于HTML的图形界面，将改进循环流程集成其中。该界面支持用户将生成分子的模拟光谱与实验数据进行对比，并提供基于token概率的初步解释性可视化，从而辅助结构分析与验证。相关代码与使用说明已公开，为化学研究人员提供了一种可操作的自动化结构解析工具。

图6｜MMST模型在实验数据上的验证结果以及改进循环的效果。 a)比较了在不同实验条件下MMST的性能，包括基础模型与引入改进循环（IC）后的准确率，分别在模拟数据和实验数据上进行评估。改进循环在两种情景下进行测试：一种是直接使用目标分子作为起点（“on target”），另一种是使用结构类似物作为起点（“on analogue”）。b)给出了实验验证数据集中部分分子的示例，包括目标分子及其对应的类似物。

3 结论

该研究提出了MultiModalSpectralTransformer（MMST）模型，这是一种融合多种光谱信息的分子结构解析新架构，能够同时利用NMR、IR和MS等数据进行结构预测。研究结果表明，多模态光谱数据的整合能够显著提升分子结构预测的准确性。在基础模型中，通过结合多项式采样与HSQC光谱排序方法，top-1预测准确率达到72%。研究还发现，模型性能主要受限于训练数据的适用域。当面对分子尺寸明显偏离训练分布的情况时，预测能力会显著下降。为了解决这一问题，构建了数据生成与光谱模拟流程，并引入迭代式改进循环，使模型能够在原始训练分布之外的化学空间中保持良好性能。在实验验证中，即使模型仅基于模拟数据训练，仍然在真实光谱条件下表现出较强的预测能力。测试分子具有极高的结构复杂性和大量可能异构体，即便在初始结构假设不正确的情况下，模型仍能够维持较高的预测水平。这表明，动态扩展模型适用域的能力在实际应用中具有关键作用。

整体来看该研究结果表明，相较于模拟与实验光谱之间的差异，模型是否覆盖足够相关的化学结构更加关键。虽然未来仍可以通过引入更多实验数据和自动峰提取技术进一步提升性能，但当前模型已经具备较强实用价值，能够有效连接模拟数据与真实应用场景。其良好的适应性使其在缺乏完整先验信息的实际结构解析任务中具有重要意义，标志着自动化结构解析方法的重要进展。