NMI 2026 | 利用大语言模型与概念图预测材料科学中的新研究方向

今天介绍的是发表在 Nature Machine Intelligence 上的一项研究工作。该研究针对当前科研文献爆炸式增长、研究者难以系统把握领域发展的问题,提出利用大语言模型自动从文献摘要中提取关键科学概念,并构建“概念图”来刻画知识结构与演化关系。在此基础上,通过图神经网络与语义嵌入相结合的链接预测方法,识别尚未被探索的概念组合,从而预测潜在的新研究方向。研究表明,引入语义信息可显著提升预测性能,并能够为材料科学研究者提供具有启发性的创新思路。该工作为“AI辅助科研创意生成”提供了系统框架,对加速材料发现与跨领域知识融合具有重要参考价值。

获取详情及资源:

0 摘要

由于已发表科研论文数量呈指数级增长,即使在自身研究领域内,科研人员也难以全面阅读所有文献。该研究探讨了利用大语言模型从材料科学领域的论文摘要中提取主要概念与语义信息的方法,以发现人类尚未察觉的潜在关联,并为近期及中期未来研究方向提供启发。结果表明,大语言模型在概念提取方面优于传统自动关键词提取方法,能够基于文献构建更有效的概念图,用以抽象表示科学知识结构。在此基础上,训练机器学习模型利用历史数据预测新兴概念组合,即潜在的新研究方向。研究进一步表明,引入语义概念信息能够显著提升预测性能。通过与领域专家开展定性访谈,验证了该模型在实际应用中的有效性。结果显示,该模型能够通过预测尚未被探索的创新性概念组合,为材料科学研究者提供新的思路,从而在科研创造性过程中发挥启发作用。

1 引言

有前景的新研究方向通常源于将此前未曾组合的概念进行整合。尽管经验丰富的科研人员具备广泛的领域知识,能够深入探索自身研究方向及其邻近领域,但在不同研究主题之间建立新的联系,尤其是跨越陌生领域以激发新思路与新发现,仍然具有较大挑战性。机器学习方法能够突破个体知识边界,通过识别尚未被关注的研究主题组合,从而拓展远超人类直觉的假设空间。

科学信息以大量研究论文的形式存在,其内容丰富但结构松散,这种缺乏结构化的信息形式为自动化分析带来困难。针对材料科学这一广泛领域,首先研究如何系统提取科学文献中的核心概念,即关键词或关键短语。近年来,自然语言处理技术的进展使得从文本中提取结构化信息并进行自动处理成为可能。在此基础上,进一步探讨大语言模型在概念提取任务中是否优于传统算法方法。

在识别并提取概念及其关联关系(即在同一文献中的共现关系)之后,进一步研究如何利用这些信息预测新的概念组合。已有研究提出构建概念网络以描述科学文献的发展过程,其中节点表示从文本中提取的关键词,通常基于自动关键词提取算法结合规则进行识别。通过分析网络结构的变化,并提取节点度等拓扑特征作为输入,利用神经网络预测未来的概念连接。然而,在相关挑战中,模型通常仅能利用网络结构信息,而无法利用节点所代表概念的语义信息。

该研究同样将材料科学领域的信息表示为概念图结构。结合语言编码模型的发展,引入专门的领域模型以生成语义嵌入,从而丰富节点的语义信息,使其不仅包含拓扑特征,还包含语义表示。在此基础上,进一步研究机器学习方法如何利用该表示的时间演化过程进行连接预测。

近年来,基于图的方法在材料科学发现中展现出重要潜力,包括多智能体图推理方法、符号图表示与语言模型结合的方法以及基于图结构的知识生成方法,这些方法均有助于假设生成。同时,也有研究通过构建带有时间信息的知识图谱或结合语言模型进行文献驱动的创意生成。与关注机器理解与创造能力本身的研究不同,该研究重点在于通过人工智能辅助材料科学研究者提出新的研究方向,即通过组合此前未被联合考虑的概念来激发创新思路。

为评估模型在实际应用中的有效性,通过访谈材料科学领域研究人员,分析模型生成的概念组合与其研究方向之间的一致性,从而验证模型在辅助科研创新中的潜在价值。

2 结果和讨论

2.1 概念提取与概念图构建

采用基于大语言模型的方法,从数据库中的221000篇摘要中提取出约510000个化学式和3600000个概念,平均每篇摘要包含2.3个化学式和16.3个概念。通过去除重复项,这些概念被压缩为约52000个唯一化学式和1241000个唯一概念。总体来看,该方法在概念提取精度方面优于基于规则的方法。由于大语言模型具备较强的提取能力,初始数据构建所需的人工标注工作量显著降低,尤其是在采用迭代策略后,人工干预进一步减少。此外,经过微调的大语言模型能够提取文本中未显式出现的概念。例如,在名词化处理、去除冗余词语、单复数转换以及格式规范化等方面均表现出良好能力。

图1|标注数据的生成过程 对100篇摘要进行人工标注(概念提取),基于标注数据对基础 LLM 模型进行微调;随后从另外100篇摘要中自动提取概念并进行人工校正,再利用扩展后的标注数据集对基础 LLM 进行重复微调。

在构建概念图时,仅保留出现次数不少于三次且由至少两个词组成的概念。最终构建的图包含约137000个节点和13000000条边,从而支持对邻接矩阵平方等拓扑特征的计算。统计结果显示,图中大多数节点的连接度介于30至1000之间。尽管存在少数高度连接的核心节点,大部分概念仅与少量其他概念直接关联,使得整体图结构呈现稀疏特性。随着时间推移,随着更多文献围绕已有概念展开研究,概念之间的连接不断增强,同时呈现出集中化趋势,即少数节点逐渐占据更多连接比例。

表1|微调的 Llama-2-13B 模型提取的摘要及其对应概念示例

通过将高维概念嵌入降维至二维空间,对所有概念进行可视化,得到材料科学领域的概念分布图。进一步利用最近邻查询方法分析嵌入向量,结果表明这些高维表示能够有效捕捉概念之间的语义相似性,即查询概念与其邻近概念之间具有高度语义一致性。

图2|材料科学图谱 对所有提取的概念进行二维 UMAP^25 投影,并在每个边长为2的网格中高亮并标注度数最高的概念(“每个网格中的最高度数”)。黄色和紫色背景分别表示通过核密度估计计算得到的高概念密度与低概念密度。

2.2 连接预测

为定量评估不同连接预测模型的性能,在测试集中对2020至2022年期间新形成的连接进行预测。测试集包含2000000对节点,其中307对为正样本,即新出现的连接。同时,结合专家知识对模型在实际应用中的表现进行定性分析。

图3|测试集(Ttest = [2020, 2022])上链接预测模型的性能指标(ROC 及对应的 AUC) 标记表示阈值为 0.5 时的性能。 a. 所有数据点的 ROC 曲线,插图中为低假阳性率区域的放大视图。 b,c. 分别为 dprev = 2(b)和 dprev = 3(c)时的性能指标。最佳结果以加粗显示.

模型性能通过受试者工作特征曲线进行评估,该方法能够在不同分类阈值下衡量模型区分正负样本的能力,尤其适用于类别不平衡的数据集。结果表明,基线模型的性能略优于仅基于概念嵌入的模型,但后者已证明语义信息在预测任务中的有效性。基于GraphSAGE架构的图神经网络模型进一步提升性能,表明在相同输入特征下,结构信息的有效利用能够增强预测能力。纯文本模型虽然也利用语义信息并取得相似表现,但其推理成本显著更高,并且在较远距离节点连接预测中表现较差。融合模型的结果表明,将语义信息与图结构特征结合可以显著提升性能,其中结构与语义信息加权组合的模型表现最佳。

图4|从摘要中计算概念嵌入的示例 逐字匹配概念(“mechanical stress”)的嵌入通过对对应词元(4,487 和 1,893)的所有局部 MatSciBert 嵌入取平均计算得到。 非逐字匹配概念(“nitride film”仅以未规范化形式“nitride films”出现在摘要中)的嵌入通过对所有词元嵌入取平均计算得到。 x 表示词元的嵌入向量.

进一步分析节点之间的最短路径距离发现,大部分未连接节点对之间的距离较短,多数通过一个或两个中间节点相连。对于真实形成的新连接,其原始距离更偏向较短路径,这表明节点在概念图中的接近程度会影响新连接形成的概率。基线模型在距离较短的情况下表现良好,但在距离较远的节点对预测中表现明显下降;相比之下,引入语义信息的模型在较远距离连接预测中具有更高召回率。

需要注意的是,在该研究中较高的假阳性比例并不构成问题,因为这些潜在连接仍具有科学合理性,最终将由研究人员进行筛选。因此,在模型设计中更强调召回率,以避免遗漏具有潜在价值的研究方向。此外,该研究未针对分类阈值进行优化,而是重点评估模型对未来潜在连接的排序能力。

进一步分距离分析结果表明,在较远节点间的连接预测中,基线模型性能明显下降,而融合语义信息的模型表现更优,说明语义信息有助于识别跨领域潜在关联。这类远距离连接具有重要意义,能够为拓展科学研究范围提供新的可能。综合来看,结合图结构与语义嵌入的方法在连接预测任务中表现最佳。

此外,在相关基准测试中,基线模型表现优异,超过多数传统方法,进一步验证了基于深度学习与语义特征的模型在科学知识预测任务中的优势。

2.3 人工专家评估分析

作为模型性能分析的第二部分,通过访谈10位材料科学领域研究人员开展人工评估。每位专家均获得一份个性化报告,其中包含由预测模型推荐的概念组合。这些个性化建议基于融合基线模型与概念嵌入的模型生成,该模型性能略低于融合图神经网络与嵌入的模型,但由于后者在研究后期才引入,因此未用于生成访谈材料。

在访谈过程中,对模型提出的概念组合进行了讨论与分析,以评估其合理性与潜在价值。由于访谈样本数量较少且可能存在选择偏差,所得结论主要为定性分析结果与个别观察。然而,专家反馈仍为理解模型建议的实用性提供了重要参考。

报告生成流程如下。首先,构建个体化概念集合Cown,其定义为两个集合的交集:一是从研究人员近期发表论文摘要中提取的所有概念,二是概念图中已知的全部概念集合Cknown。基于上述概念集合,生成面向研究人员的个性化概念组合建议。

报告的前两个部分分别为Sown×ownSown×other,对应自身概念之间的组合以及自身概念与其他概念之间的组合,分别选取得分最高的前25个组合。针对第二类组合,采用两项启发式规则进行筛选,包括避免过于通用的概念以及排除语义嵌入上过于相似或过于无关的组合,从而得到筛选后的部分Sfilteredown×other

为进一步考虑研究人员整体研究背景,报告中还包含S(manyown)×other部分,该部分选取得分较高且与多个自身概念存在关联的前20个概念组合。

在报告的最后部分,通过大语言模型对前述组合进行筛选,选择具有潜在研究价值的组合,并生成简要说明,阐述这些概念如何结合以及其作为新研究方向的潜在意义。各部分的具体定义在补充说明中给出。

基于上述个性化报告,对每位研究人员开展约30分钟访谈,将模型推荐的概念组合划分为三类:已知(A)、无意义或难以理解(B)以及新颖、有趣或具有启发性(C)。在报告的第四部分中,当某一组合中至少有一个自身概念与外部概念的结合被认为具有启发性时,该建议整体被归类为有价值类别。为处理受访者在判断建议属于无意义或有价值之间存在不确定性的情况,在分析中引入了额外类别(D)。进一步将已知类别细分为两类:已发表组合(A1)与显而易见或过于通用的组合(A2)。

表2|研究人员在所有访谈中分类的建议数量,按报告各部分划分

在共计292条建议中,71条被归类为已发表组合,36条为简单组合,99条为无意义组合,77条为有趣或具有启发性的组合,9条为不确定类别。总体来看,约26%的建议被认为具有潜在价值。各类别示例见相关补充表格。需要指出的是,由于访谈样本数量有限,统计结果的可靠性存在一定限制。每位研究人员参与分类的建议数量在18至48之间波动,且不同参与者之间的分类方差差异较大。

为评估大语言模型筛选模块的有效性,进一步分析了由模型筛选出的建议中被专家评为有价值的比例。结果显示,在模型筛选出的53条建议中,有24条被评为有价值,对应约47%的准确率,显著高于整体建议集合中约23%的比例。这表明引入语言模型筛选能够有效提升建议质量。对于召回率未作重点分析,因为模型筛选数量本身受到限制。此外,对建议中节点间距离的分析显示,在较远距离的概念组合中,有较高比例被评为有价值,说明引入语义信息有助于发现跨领域潜在关联。

在访谈过程中,部分最初被认为无意义的组合,在进一步思考或结合语言模型生成的解释后被重新评估为有价值。这表明辅助说明有助于研究人员理解概念之间的潜在联系。生成具体解释可能比独立构建新假设更容易,从而有助于评估建议的可行性。

此外,在部分建议中存在无法分类的情况,尤其是在涉及未知概念的组合中。这主要源于概念集合规模较大,其中包含研究人员不熟悉的术语。为提升建议的可理解性,提供额外上下文信息(如原始文献摘要)可能有助于辅助判断。

2.4 人工专家评估示例

为更具体地说明模型推荐概念组合的潜在价值,选取五个被归类为有价值的示例,并结合背景分析其研究意义。

建议1(“传统陶瓷”与“氧化石墨烯”)。该组合将传统氧化物陶瓷与氧化石墨烯两个较少结合的领域联系起来。传统陶瓷具有优异的化学稳定性、热稳定性和结构稳定性,而氧化石墨烯提供高比表面积和优良导电性。二者结合有望构建兼具机械稳定性与高效电热传输性能的复合材料,适用于电池、催化及热障材料等领域。已有研究多采用预合成氧化物与石墨烯衍生物混合,界面接触有限,而原位生长方法可形成更紧密界面并构建连续导电网络。相关实验结果显示,该结构在锂离子电池中表现出较高可逆容量及优异动力学性能,体现出该组合在新型材料设计中的潜在价值。

建议2(“拉伸应变”与“分子结构”)。在有机及钙钛矿太阳能电池中,多层结构间热膨胀系数差异导致拉伸应变产生,进而引发界面剥离及缺陷形成,加速性能衰减。尽管应变调控在无机半导体中较为常见,但在柔性光伏体系中应用较少。分子结构设计可作为补充手段,通过提高分子扭转自由度降低薄膜模量,从而缓解应力积累。相关研究已表明,通过设计特定分子结构可提升器件性能与稳定性,表明该组合具有广泛应用潜力。

建议3(“多相结构”与“选择性激光熔化”)。材料的微观结构决定其力学及功能性能,其中多相结构通过调控不同相的空间分布可实现多性能协同优化。选择性激光熔化技术通过快速加热与冷却形成非平衡固化条件,通常产生复杂多相结构。这类结构能够提升材料硬度与耐腐蚀性能,但也可能引入残余应力。因此,研究该工艺中相结构的形成机制对于先进材料设计具有重要意义。

建议4(“应力诱导相变”与“六方氮化硼”)。应力诱导相变增韧机制可通过相变引起体积膨胀,从而抑制裂纹扩展。将该机制应用于氮化硼体系,可能通过六方相与立方相之间的转变释放应力,同时利用其各向异性实现裂纹偏转。已有研究表明,该类复合结构在硬度和断裂韧性方面具有优势,但其相变机制尚未完全明确。通过高压实验与原位表征手段,有望进一步揭示其增韧机理。

建议5(“面内极化”与“有机太阳能电池”)。面内极化现象可在材料内部形成电场,促进载流子分离与传输。在钙钛矿材料中已观察到该现象,而在有机体系中尚未充分研究。通过引入非对称极性基团并调控其取向,有望在有机材料中实现类似效应,从而提升载流子分离效率并降低复合损失。相关研究表明,该方向具有潜在可行性,并为光伏材料设计提供新的思路。

3 结论

该研究首先表明,大语言模型,尤其是LLaMa-2-13B,在科学文本中提取科学概念方面具有显著能力,这些概念通常表现为关键短语。基于少量人工标注摘要,构建了一种用于微调开源大语言模型的方法,使其能够提取具有实际意义的相关概念。通过对模型输出进行人工校正,可迭代扩展训练数据,从而进一步提升提取效果,而无需对最终规模达到221000条的数据进行逐一人工验证。后续研究可进一步探讨在标注过程中优先提升数据质量而非数量的策略,以及引入合成数据以加速标注过程并提升模型性能的可行性。

此外,基于提取的材料科学概念及其对应文献发布时间,构建了概念图,并成功用于预测此前未连接概念之间的新关联,说明简单的图结构表示已能够支持该类预测任务。进一步结果表明,引入基于语义的概念嵌入信息能够显著提升预测性能。未来可进一步探索将图神经网络方法与语义特征相结合的模型架构。

通过与领域专家的访谈,评估模型在实际应用中的有效性。在292条推荐中,有77条被认为具有潜在价值。尽管比例相对有限,但在每次约30分钟的访谈中,仍能获得多个具有启发性的研究方向,表明该方法在科研辅助中的实际应用价值。

总体来看,该研究表明机器学习方法能够对海量科学文献进行自动化处理,并预测尚未被探索的潜在研究方向,从而促进科学创新与发展。尽管该研究以材料科学为应用场景,该方法具有良好的通用性,可拓展至其他科研领域。通过提供潜在研究方向建议,有望促进跨领域合作并推动新发现的产生。