Nature 2026 | ADeLe: 通用尺度赋予人工智能评估以解释性与预测能力
今天介绍的是发表在 Nature 上的一项研究工作。当前大模型评估主要依赖基准测试的平均性能指标,但这类方法难以解释模型为何成功或失败,也难以预测在新任务中的表现。该工作提出一种基于“通用尺度”的评估框架,通过构建18个认知与知识维度,对任务需求与模型能力进行统一刻画,从而形成需求画像与能力画像。基于该方法,不仅能够解释不同基准之间看似矛盾的结果,还能在跨任务、跨分布场景下实现高精度性能预测,显著优于传统黑箱方法。进一步分析表明,该框架可用于模型诊断、任务路由与安全评估,为构建标准化、可扩展的AI评估体系提供了重要基础。

获取详情及资源:
- 📄 论文: https://doi.org/10.1038/s41586-026-10303-2
- 💻 代码: https://kinds-of-intelligence-cfi.github.io/ADELE
0 摘要
确保人工智能(AI)的安全与有效应用,依赖于对其在新任务中的表现进行理解与预判,这些任务涵盖从前沿科学问题到被重塑的工作活动等多个领域。当前,基准测试在推动AI发展方面发挥了重要作用,但对于通用型AI系统而言,其在解释能力与预测能力方面仍存在明显局限,这主要源于不同任务之间迁移能力不足。
在此背景下,引入了一套用于AI评估的通用尺度,用于刻画任务需求特征,从而揭示常见基准测试实际衡量的能力维度;同时提取能力特征,用以量化AI系统的整体优势与局限,并对新任务实例中的表现进行稳健预测。该方法完全自动化,基于18个评估维度构建,覆盖广泛的认知与智力需求,使不同任务实例能够映射至统一的通用尺度体系中。相关方法在15个大语言模型与63项任务上进行了验证。
基于这些通用尺度构建的需求特征与能力特征,为理解AI系统提供了新的视角,例如通过基准测试的敏感性与特异性分析来验证构念有效性,并对AI是否具备推理能力这一争议问题提供了解释。此外,该方法在实例层面展现出较强的预测能力,在分布外场景(如新任务与新基准)中,相较于强基线黑箱预测模型表现出更优的估计效果。
所提出的尺度体系、评估维度、测试框架及相关方法,为构建系统化的AI评估科学奠定了基础,并为未来AI系统的可靠部署提供了重要支撑。
1 引言
当前通用人工智能系统(如大语言模型)仍表现出较高的不可靠性与不可预测性。这对AI评估提出了更高要求,不仅需要具备解释能力,还需具备预测能力,从而理解模型失败的原因,并判断其适用场景。传统以性能为导向的评估方法在实例层面上的预测能力较为有限,无论是在基准内部还是跨基准情形下均存在不足。例如,若DeepSeek-R1在美国数学邀请赛数据集上取得79.8%的平均表现,该指标仍无法对该基准中具体题目的成功率做出有效估计。对于来自其他数学基准甚至不同领域的分布外样本,该指标的参考价值更为有限。事实上,整体性能指标同时受到基准与模型的影响,并不能作为模型能力本身的稳定刻画,因而难以界定其在不同场景中的泛化边界。
不同于简单聚合性能的评估方式,部分方法通过同时刻画主体(人或AI系统)与题目(具体问题实例)的属性来预测表现。例如,心理测量学与行为科学中的方法已被引入AI评估领域,包括因子分析与项目反应理论等。然而,这些方法所提取的因素或参数高度依赖于所选模型与基准的总体分布,在AI快速发展的背景下容易失效。近期提出的基于不确定性估计与校准方法的元模型(即“评估器”)可通过潜在特征对新任务实例进行预测,但这些特征通常缺乏可解释性,且在分布外情形下泛化能力有限。另一类方法通过认知启发构建人工特征,但由于依赖专家设计认知模型与标注测试样本,其可扩展性受到限制。
表1|当前 AI 评估范式面临的挑战诊断、方法学解决方案揭示的新发现及其潜在应用

上述方法在测量对象与方式上存在差异,但均面临解释深度与预测能力不足的问题。此外,多数框架中提取的特征、参数或尺度容易受到不断变化的模型与基准空间的影响而迅速饱和,从而失去有效性。同时,构念有效性不足也是当前基准评估体系中的突出问题。解决这些问题是实现更稳健现实评估的前提,包括交互式、主观性以及自适应评估等更复杂场景。
为此,提出了一种能够跟踪、刻画并指导AI发展的新方法体系,可用于未来几十年的AI评估、监管与部署。该方法以大语言模型为实例进行验证,但同样适用于其他架构与能力形态的AI系统。核心构成为18个定义在(0,∞)范围内的通用能力尺度,覆盖自然语言任务中的关键能力维度,如语言理解与逻辑推理,以及自然科学与形式科学等知识领域。这些尺度上的具体数值(需求水平)通过18个精心设计的需求标注规则获得,其取值范围为0至5+,既可由人工理解与应用,也可通过大语言模型自动执行以实现规模化。
通过在20个基准测试上应用这些规则,构建了标注需求水平数据集,其18个需求分布构成需求特征,用于分析各基准在敏感性(是否测量目标能力)与特异性(是否避免测量无关能力)方面的表现。针对每一个应用该体系的大语言模型,可得到18条性能曲线,描述模型在不同需求水平下的表现。这些曲线进一步归纳为能力估计值,并在各尺度上形成能力特征。值得注意的是,特定任务或基准的需求水平,以及AI系统的能力水平,均不依赖于其他模型或基准及其组合分布,从而具备更好的独立性与泛化能力。尤其是在分布内与分布外任务场景中,这些需求水平可用于构建高效的性能预测模型。
以推理能力评估为例,通过对多个宣称评估“推理能力”的基准进行标注,并将其需求特征与模型能力特征进行对比,可以实现因果层面的解释与预测。例如,若某模型在定量推理、逻辑推理与归纳推理三个维度上的能力分别为4.5、4.3与4.2,则可预期其在这些维度需求较低的GSM8K任务中表现良好;而在需求水平接近4甚至达到5的OlymMATH Hard任务中,则可能表现较弱。此外,还可进行反事实分析,例如若该模型在定量推理能力上降低至3,对GSM8K任务影响较小,而若降低至1,则会显著影响其表现。
基于上述方法体系,可实现一系列此前方法难以达到的能力:
-
能力空间可被划分为层次化的通用尺度体系。DeLeAn rubrics v1.0系统性应用于ADeLe battery v1.0中的16,108个实例(对应289,944条标注),覆盖18个通用能力尺度。通过人类与大语言模型标注结果之间的一致性验证了该标注体系的清晰性。不同实例在各能力维度上的差异,以及19个维度之间适度的需求相关性,表明这些尺度能够刻画相互区分的能力特征,且不依赖于当前模型体系,具备对未来AI系统持续有效的潜力。
-
常用基准测试的实际测量内容可被解释。分析发现,多个基准中存在非目标维度的需求,例如非常规性(从常规到独特)、任务规模(从小到大)以及不可猜测性(从选择题到开放问题)。这些因素分别对应数据污染(因训练中出现类似数据导致高估)、任务叠加(因增加复杂因素导致低估)以及选项结构变化引起的难度偏移。这些维度的需求水平及其预测能力均得到量化分析。此外,许多基准在敏感性或特异性方面存在不足,即未覆盖目标能力维度的完整需求范围,或包含不应测量的其他维度需求。明确每个实例实际测量的内容,有助于实现基准之间的互操作性,并提升评估体系的构念有效性。
-
可在统一尺度下解释AI系统的整体优势与局限。在对三类大语言模型的实验中,知识类能力主要由模型规模决定,而定量推理、逻辑推理、学习与抽象能力,以及心理建模与社会能力,在采用链式推理和高推理负载的模型(如OpenAI o1与DeepSeek-R1-Distilled)中表现更为突出。由于评估指标不再依赖基准上的相对得分,而是基于不易饱和的统一比例尺度,从而能够解释以往评估结果中的冲突现象,并揭示规模扩展中的收益递减规律。
-
可对新任务与新基准中的实例表现进行稳健预测。在实例层面实现了较高预测能力,在分布外场景下优于基于嵌入或微调的黑箱评估器方法,从而同时支持内部与外部有效性。该方法也优于基于领域划分或学习层级的分类体系。这一能力为多种应用提供支持,例如更优的模型选择与调度策略、可保障安全性的运行边界设定,以及在预期风险或成本较高时的前瞻性拒绝机制。

图1|LLM能力与基准需求画像的匹配关系用于解释与预测性能 a. 展示LLM能力画像(DeepSeek-R1-Distilled-Qwen-14B) b. 展示四类“推理”基准的需求画像(GSM8K、OlymMATH Easy、GPQA 和 OlymMATH Hard,其中每个扇区表示各能力需求水平的频率,颜色越深表示频率越高)。结果显示,在GSM8K基准上性能较高,而在其余三个基准上性能较低。能力画像解释了表面上相互矛盾的结果,例如 DeepSeek-R1-Distilled-Qwen-14B 在 GSM8K、OlymMATH Easy、GPQA 和 OlymMATH Hard 上的准确率分别为 90.50%、61.80%、59.10% 和 13.30%,尽管这些基准均被认为测试数学推理能力。结果表明,OlymMATH Easy 在定量推理(QLq)、逻辑推理(QLl)和归纳推理(CL)方面的需求低于 OlymMATH Hard,但在其他维度上需求相近。结果进一步显示,尽管 GPQA 在推理维度上更简单,但由于特异性较低,在某些知识维度上(超出 KNf(形式科学),如 KNn(自然科学)和 KNa(应用科学))需求较高,因此性能低于 OlymMATH Easy。
上述流程通过开源管线实现全自动化,且可由AI研究人员、政策制定者与监管机构灵活扩展与定制,例如将能力尺度拓展至安全性、公平性等相关属性,或适用于具备行动能力的智能体。该工作为构建AI测量标准提供了开创性基础,类似于其他科学领域中关键的测量体系建设。
对AI评估体系的核心改进在于构建一组具备可理解性、通用性且符合测量理论基础的能力尺度。采用包含18个尺度的分层结构体系,前11个维度定义为“基础能力”,用于刻画语言表达、元认知等通用能力;第二组包含5个“知识”维度,用于衡量在不同科学领域中的专业水平;此外还包含3个“外在”维度(其中两个为正式尺度,一个为用于控制的变量),分别为非常规性(AT)、任务规模(VO)与不可猜测性(UG),这些维度不直接反映认知需求,而是刻画影响任务难度的其他因素。完整的尺度定义见补充材料相关部分。进一步对不同子集及其他分类体系进行了消融分析,结果表明,无论在预测能力还是解释能力方面,这些替代方案均难以达到DeLeAn体系的效果。

图2|ADeLe v1.0 基准集合中20个基准在18种需求维度上的水平频率分布(即需求画像) 展示20个基准在18种需求维度上的水平频率分布。补充材料中对LLM“推理”的常见误解进行了澄清,并描述了20个所谓“推理”基准的需求画像。
该方法具有良好的通用性,可适用于不同尺度体系,包括DeLeAn v1.0及其扩展版本。核心目标在于实现同时具备解释能力与预测能力的AI评估体系。随后通过四个具体研究问题对该方法进行验证,并与传统评估方法及当前最佳基线进行对比分析。
2 结果和讨论
2.1 标注尺度对层级与维度的区分能力
首先围绕如下研究问题展开:人类是否能够区分标注规则中的不同层级与不同维度。只有在这些尺度具备可理解性的前提下,才能发挥解释作用。方法部分“LLM annotators and inter-rater analysis”描述了五名人类标注者的选择方式、标注规则的呈现形式以及所使用的数据样本。在18个需求维度上,这五名标注者之间的一致性(rWG指数)介于0.70至0.91之间,平均为0.83。通过Delphi方法获得一致性标注后,与作为自动标注器的GPT-4o进行对比,其一致性进一步提升(rWG介于0.75至0.94之间,平均为0.86)。这些结果表明,人类之间以及人类与自动标注之间在理解上具有较高一致性。标注规则的有效性还需体现在预测能力上,相关分析将在后续“Predictive power analysis: anticipating performance with assessors”部分展开,同时要求保持良好的可解释性。

图3|18种需求维度与15个LLM的特征曲线 横轴表示该维度的需求水平,纵轴表示各水平对应的平均性能(成功概率)。在拟合过程中,各区间按最大区间赋予相同权重(少于100个样本的区间采用比例权重以增强稳健性)。曲线采用逻辑函数拟合,并在坐标(20, 0)处设置锚点,占总权重的50%。因此曲线延伸至5级以上,横轴范围展示为0至10,尽管当前尺度仅包含至5级。
尽管各维度对人类而言是可理解的,但仍可能存在概念冗余的问题,即难以构造出某一实例在一个维度上取高值而在另一维度上取低值的情形。如果此类实例不存在,则人类将难以区分这些维度。即便在特定基准中不同维度之间可能存在相关性(例如由于设计或选择偏差导致同步变化),只要相关性未接近极值,便可推断存在差异较大的实例。在扩展数据图1中,展示了ADeLe数据集中各维度需求水平的Spearman相关性,该数据集主要来源于2024年的AI基准测试。整体上较低或中等的相关性表明,多数维度能够划分智能空间的不同区域,并允许存在某一维度较低而另一维度较高的情况,尽管此类实例相对较少但并非不存在。

图4|15个LLM的能力画像 能力值 l 表示模型在需求水平为 l 的问题上具有50%的成功概率(因此部分能力值超过5)。与文献中常见的LLM径向图不同,此处数值为比率尺度(0, ∞)上的实际能力值,并且在期望意义上对基准难度分布变化更具稳健性。展示模型能力随参数数量变化的清晰尺度关系。
仅有两组相关性超过0.8,均涉及CL维度(概念化、学习与抽象能力),该维度在整体结构中呈现出一定的中心性,与MC(元认知与批判性思维)以及QLl(定量与逻辑推理)具有较强相关性。同时可以观察到,除UG之外,外在维度与其他需求维度之间普遍存在较高相关性。需要指出,这些正负相关关系在一定程度上依赖于所选基准集合的构成。
总体来看,基于GPT-4o的标注在各维度上均具有良好的可理解性,且各维度之间能够被有效区分。这一点具有重要意义,因为当前AI评估实践中的标注规则往往具有较强的任务特异性,较少具备定量性质,且很少用于解释性分析,尽管相关理解被认为是推动AI应用的重要因素。同时,各维度之间的相关性并不意味着某些需求组合无法实现,而仅反映其在当前ADeLe v1.0数据集中出现频率较低。所选实例与基准旨在覆盖AI评估的整体分布,而非通过筛选降低相关性,其设计目标在于揭示现有基准实际测量的能力内容。
2.2 基准需求特征所体现的解释能力
本节关注如下研究问题:ADeLe体系及其组成基准的敏感性与特异性如何。通过分析各基准的需求特征,可以理解其实际测量内容,并判断是否真正测量了其宣称的能力。
整体来看,不同基准的需求特征差异明显,表明其测量内容存在显著区别。针对特定领域的基准(如ChemLLMBench、OmniMath、MedCalcBench和SciBench)在相应知识维度上呈现较高需求,例如应用科学(KNa)、自然科学(KNn)与形式科学(KNf)。而如TempReason与TruthQuest等针对单一领域的基准,则在其他维度上同样出现需求峰值。另一些基准(如Date Arithmetic、GRE与GMAT、MCTACO、TimeDial及TimeQA)整体需求水平较低。相比之下,范围较广的评估(如Civil Service Examination、LSAT与MMLU-Pro)则呈现出混合型特征。
为了判断这些基准是否真正测量其宣称的能力,需要将需求特征与其目标能力进行对比。为系统分析构念有效性问题,引入两项判据:
•敏感性判据:若某基准声称测量能力X,则其在该维度上应表现出较宽的需求分布,具体表现为该维度的均值≥2且标准差≥1.0。
•特异性判据:同时,对于非目标维度,其需求水平应较低,即所有其他混杂维度的均值应小于2.0。
定量分析结果显示,仅少数基准在部分能力上同时满足敏感性与特异性要求,且通常覆盖范围不足。即便存在一定重叠,也仅涉及部分目标能力,大多数基准及维度未能满足上述判据。例如,SAT基准因低非常规性而表现出数据污染问题,而MedCalcBench更多反映模型对信息的注意力与扫描能力,而非纯粹的医学计算能力。此外,在推理能力评估中亦观察到类似问题,即多数相关基准在敏感性或特异性方面存在不足。
表2|ADeLe 中20个基准子集的敏感性与特异性分析

基准测试的选择标准为:至少包含一个满足两项敏感性判据的维度(标准差≥1且均值≥2)。第二列给出了各基准测试按照其自身术语所声称测量的内容。第三列将这些基准测试声称测量的维度转换为统一术语进行表达。第四列展示了基准测试实际测量或对其敏感的维度。对于每一个基准测试所敏感的维度,第五列和第六列分别给出了该维度对应水平的均值和标准差。第七列(最后一列)提供了GPT-4o在各基准测试上的平均准确率,作为参考。在第三列和第四列中,上标∘分别表示遗漏的维度(敏感性不足)或额外的维度(特异性不足)。上标•表示既被声称测量且实际确实测量的维度(高敏感性)。ADeLe基准集合中还有六个不满足上述两项敏感性判据的基准测试,分别为Date Arithmetic、GRE & GMAT、Language、MCTACO、TimeDial和TruthQuest,其对应的GPT-4o准确率分别为98.9、95.6、72.4、95.1、98.8和43.0。结果表明,没有任何基准测试同时具备高敏感性和高特异性,反映出构念效度明显不足。
总体而言,当前常用基准在敏感性与特异性方面表现较差且不稳定。将多个基准简单归类为某一能力并对其准确率进行聚合,会导致不同需求水平与维度被混合,从而产生高度混杂的结果。这种评估方式难以揭示基准本身的测量缺陷。当进一步整合大量基准(如BIG-bench等)时,该问题更加突出。尽管整体敏感性可能提高,但在使用聚合指标时特异性将明显下降。
相比之下,基于通用尺度的方法能够对不同基准中的实例进行统一度量,使其需求水平具备可比性,从而支持跨基准实例的组合与重构,用于针对特定能力的测试。同时,可依据需求特征对基准进行系统筛选或剔除,在实际使用前即评估其质量,从而提升整体评估体系的有效性。
2.3 基于能力特征的解释能力
另一项关于解释能力的研究问题聚焦于AI系统本身:是否能够在非饱和的表示框架中理解模型能力及其演化。为此,选取了15个大语言模型并在ADeLe评测体系上进行测试。具体方法基于主导切片策略:在某一维度的需求水平l下,仅统计其他维度需求不超过l的任务实例表现。随后对这些数据点进行逻辑函数拟合,从而得到18条按维度划分的特征曲线,用于刻画随着需求水平提升,模型成功率的变化趋势。
结果显示,不同维度的曲线形态差异显著。例如,注意力与扫描能力(AS)以及已知与未知校准能力(MCu)对应的曲线较为陡峭,且不同模型间差异较小。这些维度在低需求区间(需求水平1至2)能够很好预测成功,在高需求区间(需求水平5及以上)则普遍表现为失败。相比之下,部分维度(如社会科学知识KNs)的曲线较为平缓,其区分成功与失败的能力较弱。某些维度表现出明显的区分特性,例如关键信息识别能力(MCr)与心理建模与社会认知能力(MS),能够清晰区分推理型模型与非推理型模型的表现。
通过计算特征曲线下的面积对模型能力进行量化。需要注意的是,能力值为4并不意味着模型能够解决该等级的大多数问题,而是表示在该需求水平上具有约50%的成功概率。能力特征分析表明,与知识相关的维度在大规模模型中表现较高,而在小模型及蒸馏模型中有所下降。推理型模型在定量与逻辑推理能力(QL)方面表现出明显提升,同时在关键信息识别(MCr)与心理建模(MS)等维度上也有所增强,这一趋势在蒸馏模型中同样存在。
进一步分析发现,在LLaMA系列与DeepSeek-R1-Distilled-Qwen系列中,随着参数规模增加,能力提升在最大模型处已趋于边际递减。该现象与基于能力尺度构建的扩展规律一致。相比之下,传统基于性能指标的扩展规律容易在接近100%准确率时出现饱和,并受基准需求分布影响较大。对不同基准、领域或标签进行简单聚合,往往会导致不同维度之间不可比,解释性较差且对难度分布敏感。例如,在所有逻辑推理基准上取得70%的平均准确率,并不意味着能力高于在元认知基准上取得50%的模型,甚至无法与另一组逻辑推理基准中的50%结果直接比较。需求水平的小幅提升可能对应性能的大幅下降,这在不同难度版本的任务中表现尤为明显。
通过在统一尺度下对需求与能力进行建模,可以实现不同维度之间的可比性,从而解释文献中关于大语言模型推理能力的相互矛盾结论。例如,早期研究认为模型具备复杂推理能力,而后续研究则指出其难以完成非平凡推理任务,这种表面矛盾可通过能力尺度分析得到统一解释。
总体而言,该方法能够在细粒度层面分析模型能力及其演化过程,通过特征曲线解释模型在不同需求区域的成功与失败机制。值得强调的是,这一解释完全基于单一模型的观测结果,不依赖其他模型或数据集的整体分布,区别于项目反应理论等基于群体统计的方法,从而具备更强的独立性与可解释性。
2.4 基于评估器的预测能力:对性能的前瞻性判断
最后一个研究问题在于:是否能够预测AI在未见实例上的表现,包括分布内与分布外场景。相关分析表明,多数需求维度与成功率呈负相关关系,即需求水平越高,整体表现越差,这为多变量建模下的预测能力提供了基础。
为量化这种预测能力,构建了三类实例级概率分类器(评估器):其一为基于19维需求标注向量的随机森林模型;其二为基于问题文本提取的GloVe嵌入的随机森林模型;其三为基于问题文本端到端微调的LLaMA模型。
在分布内评估中,尽管不同模型自身准确率差异较大(从Babbage-002的0.102到OpenAI o1的0.843),基于需求的随机森林模型仍表现出较高区分能力(通过AUROC衡量)以及接近完美的校准能力(通过ECE衡量)。其中,GPT-4o表现出最高可预测性(AUROC为0.882),而较小模型的可预测性相对较低。在15个模型上的平均结果显示,该方法的加权AUROC约为0.84,与基于LLaMA的评估器相当,而其ECE仅为0.01,显著优于GloVe模型(0.03)与LLaMA模型(0.04)。这一结果表明方法在分布内具有良好的内部有效性。
在外部有效性方面,通过两种分布外设置进行评估:一是任务级分布外(训练时剔除部分任务),二是基准级分布外(训练时剔除整个基准)。在任务分布外情形下,基于需求的评估器仍保持较强预测能力(加权AUROC为0.81,ECE为0.02),仅略低于分布内表现,并优于其他方法(LLaMA为0.79,GloVe为0.74)。在更具挑战性的基准分布外设置中,该方法性能略有下降(AUROC为0.75,ECE为0.04),但仍显著优于其他评估器,其性能下降幅度更小。这表明基于需求的方法较少依赖偶然特征,具备更好的泛化能力。此外,与基于领域划分或学习层级的分类体系相比,该方法同样表现出更优的预测性能。
传统项目反应理论虽能解释已见样本的表现,但难以预测新实例表现,因为其参数依赖于训练样本集合,且多维扩展仅适用于该集合。在该方法中,新实例可通过自动标注获得需求向量,该向量独立于任何训练分布,从而支持性能预测。
在实际部署场景中,预测能力尤为关键,其目标在于判断AI在未知情境中的表现,而不仅是对既有测试结果进行评估。传统评估方法通常以平均准确率为基线,该指标在实例层面缺乏区分能力(AUROC约为0.5),且仅在分布内具备一定校准效果。基于模型自身的不确定性估计虽然可作为替代方案,但通常需要运行模型或访问其内部信息,且预测效果不优于外部评估器。
总体而言,基于需求的评估器在预测能力上表现出明显优势,其核心特征具备良好的可解释性,相较于复杂但难以解释的基线方法更具实用价值。这为实现AI系统的可靠部署提供了重要支撑。
3 结论
当前AI评估体系尚难以满足快速演进且日益多样化的AI生态需求。对于通用人工智能系统而言,理解其行为机制并预测其在新任务中的表现已成为迫切需求。通过构建通用需求尺度,并借助自动化标注规则对大规模实例进行标注,提出了一种具有发展潜力的AI评估新范式。该方法具备系统性、可扩展性与标准化特征,有效缓解了传统评估方法中解释能力与预测能力不足,以及对特定基准与模型群体的过拟合和性能饱和等问题。在通用AI快速发展的背景下,研究人员、企业、第三方评估机构以及政策制定与监管主体均对严谨、可扩展且流程化的评估体系提出了迫切需求。
值得注意的是,大语言模型作为标注工具,使该方法在规模化与自动化方面成为可能。通过标注者一致性分析与Delphi方法验证,大语言模型标注结果在解释层面与人类具有较高一致性,其预测能力也在多任务环境中得到体现。
尽管如此,该方法仍存在若干局限。首先,DeLeAn v1.0标注体系尚未覆盖部分能力维度(如导航能力),且当前分析主要局限于大语言模型,未涉及多模态系统与机器人等其他AI范式。未来可在现有框架基础上扩展更多维度,包括与安全性、公平性相关的属性,并应用于更广泛的AI系统。其次,当前数据集中高难度(5+级)实例数量较少。随着AI能力持续提升,现有尺度范围需要进一步扩展,同时保持与已有体系的兼容性。第三,预测能力仍有提升空间,尤其是在分布外场景下,可通过引入更“纯净”的基准(即仅涉及少数需求维度)以及提升标注模型能力来进一步优化。第四,当前采用大语言模型对输出进行自动评分,在多数任务中已表现出与人工评分相当的效果,但对于更开放或具有行动性的任务,未来仍需发展更先进的自动评估方法。
总体而言,该方法体现了以构念为核心的AI评估范式的发展趋势,融合了多学科视角。相关协作平台及标注体系将持续扩展,为解释与预测AI系统性能及其安全性提供支持。在AI评估处于研究与监管关键节点的背景下,该工作为构建适应通用人工智能发展的评估体系提供了重要基础。