Nature 2025 | TabPFN: 利用表格基础模型在小数据上的精确预测

今天介绍的是发表在Nature上的一项工作——TabPFN: 利用表格基础模型在小数据上的精确预测。表格数据作为最常见的数据形式，广泛存在于生物医学、材料科学、经济学等领域。然而，长期以来深度学习在表格数据上的表现不及树模型，主要受限于数据异质性与规模限制。研究者提出的表格先验拟合网络(TabPFN)突破了这一瓶颈：通过在上亿个合成任务上进行预训练，它能够在不超过1万样本和500特征的数据集上，以秒级速度超越经过数小时调优的最新基线模型。在分类任务中实现5140倍加速，在回归任务中实现3000倍加速。更重要的是，TabPFN不仅支持预测，还具备数据生成、密度估计、嵌入学习与可解释性等基础模型特征。这一方法展示了通过**合成数据+上下文学习(ICL)**实现算法自动化设计的巨大潜力，为未来跨学科的小样本学习和科学发现开辟了新方向。

获取详情及资源:

论文: https://doi.org/10.1038/s41586-024-08328-6
代码: https://github.com/PriorLabs/TabPFN
文档: https://priorlabs.ai

0 摘要

表格数据是以行和列组织的电子表格，在从生物医学到粒子物理、经济学以及气候科学等各个科学领域中无处不在。其核心预测任务是基于其余列推断标签列中的缺失值，这一任务对于诸如生物医学风险模型、药物发现和材料科学等广泛应用至关重要。尽管深度学习在原始数据建模方面带来了革命性突破，并产生了众多高影响力的成果，但在过去二十年里，梯度提升决策树始终主导着表格数据的处理。研究者提出了表格先验拟合网络(TabPFN)，这是一种表格领域的基础模型，在样本量不超过一万的数据集上，性能远超以往所有方法，同时训练时间大幅缩减。在分类任务中，仅用2.8秒，TabPFN便超过了经过4小时调优的最强基线集成方法。作为一种基于生成式Transformer的基础模型，它还支持微调、数据生成、密度估计以及可复用嵌入的学习。TabPFN本身是一种跨越数百万个合成数据集学习而来的算法，充分展示了这一方法在算法开发中的潜力。凭借在不同领域中的建模优势，TabPFN有望加速科学发现，并提升各类重要领域的决策能力。

图 1 | 所提方法的概览。 a, TabPFN 预训练与使用的高层次流程。b, TabPFN 的架构。训练模型去解决超过 1 亿个合成任务。其结构是对标准 Transformer 编码器的改造，以适应表格中遇到的二维数据。

1 引言

在人工智能的发展历史中，手工构建的算法组件不断被性能更优的端到端学习方法取代。例如，在计算机视觉中，SIFT(尺度不变特征变换)与HOG(方向梯度直方图)等人工特征被学习到的卷积所取代；在自然语言处理中，基于语法的方法被学习到的Transformer所替代；在博弈中，定制的开局和残局库也被端到端学习到的策略所超越。该研究将这种端到端学习进一步扩展至表格数据这一无处不在的领域。

表格数据的多样性使其区别于文本与图像等原始模态。例如，在语言建模中，词语的含义在不同文档中保持一致，而在表格数据中，相同数值可能代表完全不同的含义。药物发现的数据集可能记录化学性质，而材料科学的数据集则可能涉及热学或电学特性。这种专业化导致了大量规模较小、相互独立的数据集及其对应的模型。以常用的表格数据基准网站openml.org为例，其中约76%的数据集行数不足一万。

深度学习在表格数据上的困难主要源于数据集之间的异质性以及原始数据自身的复杂性：表格通常包含不同尺度与类型的列(布尔型、分类型、序数型、整数型、浮点型)，还常见类别不平衡或缺失值、不重要特征与离群点等。这些问题使得非深度学习方法——尤其是基于树的模型——长期占据优势。然而，这类传统模型也存在明显局限：如果不做大幅改造，它们在分布外预测与跨数据集知识迁移上表现较差，并且由于无法传递梯度，难以与神经网络结合。

为解决这些问题，研究者提出了TabPFN，一种针对中小规模表格数据的基础模型。这一新的监督学习方法能够适用于任意小至中等规模的数据集，在样本量不超过一万、特征数不超过五百的任务上表现显著优于现有方法。在单次前向传播中，TabPFN在基准测试中远超包括梯度提升决策树在内的最先进方法，即便后者经过4小时调优，TabPFN在分类任务上实现了5140倍加速，在回归任务上实现了3000倍加速。此外，研究还展示了TabPFN的多种基础模型特性，包括微调、生成能力以及密度估计。

2 基于原理的上下文学习

TabPFN充分利用了上下文学习(ICL)，这一机制正是大型语言模型取得惊人成就的核心所在，从而生成了一个完全通过学习获得的表格预测算法。尽管ICL最早是在大语言模型中被发现的，近期研究已经证明，Transformer能够通过ICL学习诸如逻辑回归等简单算法，而先验拟合网络(PFN)甚至表明，复杂算法如高斯过程和贝叶斯神经网络同样可以在ICL框架下近似得到。ICL使得学习算法的空间大大拓展，甚至包括那些没有闭式解的情形。

研究者在早期版本的TabPFN基础上进行了改进。该初步版本展示了ICL在表格数据上的可行性，但局限性较多，难以广泛应用。新版本通过一系列优化，实现了可扩展至50倍更大数据集，支持回归任务、分类变量与缺失值处理，并且对无关特征与离群点表现出更强鲁棒性。其核心思想是生成大规模的合成表格数据集，并训练一个基于Transformer的神经网络来解决这些合成预测任务。传统方法通常需要为缺失值等数据问题设计人工处理方案，而这一方法能够在包含这些挑战的合成任务中自动学习有效策略。这样，ICL成为一种以示例驱动的算法声明式编程框架：通过生成多样化的合成数据来展现所需的算法行为，再训练模型去学习满足该行为的算法，从而将算法设计从“编写显式指令”转向“定义输入输出示例”。这一思路极大拓宽了不同领域算法构建的可能性。

与标准的监督深度学习不同，TabPFN的ICL范式在训练时跨数据集进行，而非针对单个数据集按样本或批次更新参数(如Adam优化器)。在推理阶段，TabPFN作用于整个数据集，而不仅仅是单个样本。在被应用到真实数据前，模型会在数百万个不同预测任务的合成数据集上进行一次性预训练。推理时，模型接收一个未见过的数据集，包括带标签的训练样本与未标注的测试样本，并在单次前向传播中完成训练与预测。

整个方法可分为三个步骤：

数据生成：定义一个生成过程(即先验)，合成包含多样化特征与目标关系的表格数据，覆盖模型可能遇到的广泛场景。从该生成过程采样数百万个数据集，其中部分样本的标签被掩盖，用于模拟监督预测问题。
预训练：在这些合成数据上训练Transformer模型(PFN)，利用输入特征与未掩盖的样本作为上下文，预测掩盖的标签。此步骤仅需一次，在开发阶段完成，从而学得一个可泛化的学习算法。
真实预测：训练完成的模型可以直接应用于任意真实数据集，利用训练样本作为上下文，通过ICL预测测试样本的标签。

在理论层面，该方法可视为对基于合成数据先验的贝叶斯预测的一种近似。训练后的PFN将近似后验预测分布

p ({\hat{y}}_{t e s t} ∣ X_{t e s t}, X_{t r a i n}, y_{t r a i n})

从而对PFN预训练过程中使用的人工数据集先验，返回一个贝叶斯预测结果。

图 2 | TabPFN 先验的概览。 a, 对于每个数据集，首先采样高层次的超参数。b, 基于这些超参数，构建结构因果模型，用以编码生成数据集的计算函数。每个节点包含一个向量，每条边根据连接类型在计算图中实现一个函数。步骤 1：使用随机噪声变量生成初始化数据，输入至根节点并在计算图中传播，得到待生成样本。步骤 2：随机采样图中的特征节点与目标节点位置，分别标记为 F 和 T。步骤 3：提取所采样位置的中间数据表征。步骤 4：对提取数据进行后处理。c, 获得最终数据集，并绘制特征对的交互，节点颜色表示样本类别。

3 面向表格数据的架构设计

Transformer架构目前是灵活深度学习与基础模型的首选方案。其核心在于对序列建模，并通过注意力机制在序列项之间建立联系，从而有效捕捉长程依赖并学习复杂关系。尽管基于Transformer的模型也可应用于表格数据，TabPFN针对其中的两个关键局限提出了改进。

首先，Transformer天生是为序列而设计的，因此它会将输入视为单一序列，而未能利用表格的二维结构。其次，传统机器学习常采用“拟合-预测”(fit-predict)模式，即在训练集上拟合一次后，模型可被多次复用于不同测试集。而基于Transformer的ICL算法却需同时接收训练与测试数据，在单次前向传播中完成训练与预测。这意味着一旦模型被复用，必须重新计算训练集，效率较低。

为更好地利用表格结构，研究者提出了一种为表格中每个单元格分配独立表示的架构(见Fig. 1b)。该架构采用双向注意力机制：每个单元格先关注同一行中其他特征(即同一样本)，再关注同一列中的对应特征(即其他样本)。这种设计使模型对样本与特征的排列顺序均保持不变，并能在训练之外更高效地推广到更大规模的表格数据，无论是样本数还是特征数。

在fit-predict场景下，为避免在每个测试样本推理时重复计算训练集，模型可以将训练样本与测试样本的推理过程分离。这样，ICL在训练集上仅执行一次即可，将结果状态缓存并复用于多个测试集推理。在拥有1万条训练样本和10个特征的数据集上，这一优化使CPU上的推理速度从32秒缩短至0.1秒，实现约300倍加速；GPU上则提升6倍。当特征数增加至100时，CPU加速达到800倍，GPU加速达到30倍。这些测量仅针对核心推理过程，不包含预处理和集成等步骤。GPU加速相对较低的原因在于其大规模并行架构未被完全利用。

此外，研究者进一步优化了架构的内存与计算需求：采用半精度(layer norm)、使用Flash Attention、激活检查点以及逐步计算状态。这些措施将内存需求降低了四倍，使每个单元格占用不足1000字节，从而在单个H100 GPU上实现对最多5000万单元格(例如500万行×10个特征)的数据集进行预测。

在回归任务中，模型采用分段常数输出分布，能够预测目标值的概率分布而不仅是单点值，从而支持如双峰分布等更复杂的输出形式。

4 基于因果模型的合成数据

TabPFN的性能依赖于生成能够反映真实表格数据特征与挑战的合成训练数据集。为此，研究者提出了一种基于结构因果模型(SCMs)的方法。SCMs为表示数据背后的因果关系与生成过程提供了形式化框架。通过使用合成数据，而非大规模的公共表格数据集合，可以避免基础模型常见的问题，例如隐私与版权风险、训练集与测试集的污染，以及数据可得性的限制。

如Fig. 2所示，生成管线首先会采样高层超参数(如数据集大小、特征数与任务难度)，用于控制每个合成数据集的整体属性。在此基础上，构建一个有向无环图以表示该数据集的因果结构。在生成单个样本时，首先从因果图的根节点输入初始化数据，这些数据由正态分布或均匀分布采样而来，并引入不同程度的样本间相关性(见“初始化数据采样”部分)。随着数据在计算图的边上传播，会经过多种计算映射：小型神经网络(带线性或非线性激活函数，如sigmoid、ReLU、取模、正弦)，离散化机制(生成类别特征)，以及决策树结构(编码局部的规则依赖)。在每条边上还会加入高斯噪声，为生成的数据引入不确定性。所有节点的中间表示均会保存，以便后续提取。最终，从指定的特征与目标节点中提取出对应表示，构成样本的特征值与目标值。

这种设计使合成数据能够涵盖各种数据挑战。例如，表格数据中常见的缺失值问题，在合成数据生成过程中通过不同模式与比例的缺失值模拟展现。TabPFN在训练中接触到这些模式，从而学习到可泛化的缺失值处理策略。

此外，还会进行后处理以进一步增强数据的真实性与增加预测算法的鲁棒性挑战。例如利用Kumaraswamy分布进行扭曲，引入复杂的非线性变换，以及模仿离散化特征的量化处理(见“后处理”部分)。

通过这一生成流程，研究者在每次模型训练中构建了约1亿个合成数据集，每个数据集都拥有独特的因果结构、特征类型与函数特征，为TabPFN提供了极其丰富的训练环境。

图 3 | TabPFN 与基线方法在简单函数上的表现。 图中橙色为真实值，蓝色为模型预测。a, 每列为一个玩具函数，均只有一个特征(横轴)和一个目标(纵轴)。TabPFN 能够建模多种不同函数，包括含噪声函数。b, TabPFN 天然具备对输出分布建模的能力，例如在观察 1000 个光子位置后，预测双缝实验的光强分布模式。

5 定性分析

研究者首先在一些玩具问题上分析了TabPFN的表现，以帮助建立直观理解，并区分不同数据集特征对模型的影响。由于回归问题更易于可视化，定性分析主要集中在回归任务上。

如Fig. 3a所示，TabPFN与一系列常见预测方法进行了对比，所有方法均采用默认参数。**线性回归(岭回归)**只能自然地拟合线性函数，预测简单且可解释，但在许多玩具函数上出现灾难性失败。多层感知机(MLP)在高度不光滑模式的数据集上表现更差，尤其在阶梯函数任务中尤为明显。相比之下，TabPFN能够直接对光滑或非光滑函数进行建模，甚至可以较好地近似阶梯函数，尽管其本质上仍是神经网络。树模型的代表CatBoost只能拟合分段常数函数，这虽然会导致逼近误差和不直观的预测，但至少能够避免彻底失败。

TabPFN相较于所有基线方法的最大优势在于：它可以天然地建模预测不确定性，而且不需要额外代价。传统回归方法输出的仅是单一的实值预测，而TabPFN输出的是目标分布，能够反映预测中的不确定性。这种不确定性建模不仅限于简单分布，还能够处理复杂的多峰分布。

如Fig. 3b所示，研究者利用TabPFN对双缝干涉实验中探测屏上的光强分布进行建模。在这一经典实验中，光子通过双缝后，由于光的波动干涉效应，会在屏幕上形成多峰强度分布。TabPFN仅用**单次前向传播(1.2秒)**便能准确预测这一复杂模式。相比之下，传统方法如CatBoost需要在不同分位点训练多个分位数模型，再将预测结果拼接成分布，即便针对任务进行了专门调优，效果仍远逊于TabPFN。如Fig. 3b所示，默认设置下的CatBoost耗时高达169.3秒，预测质量更差。定性上观察，TabPFN在低密度区域预测更准确，且伪影更少。

图 4 | TabPFN 在测试基准上的比较 (数据集最多含 1 万个样本、500 个特征)。 在聚合前对每个数据集进行归一化；区间表示 95%置信区间。Wilcoxon P 为双侧 Wilcoxon 符号秩检验的 P 值。a, TabPFN 默认与调优版本的平均性能对比，以及各基线方法(调优目标为 ROC AUC 或 RMSE，因此次要指标代表性下降)。右侧为强基线的放大分析。b, TabPFN 与其最强基线 CatBoost 的逐数据集对比，每个点为一个数据集的平均得分。c, 各方法超参数调优的影响，横轴为拟合与预测的平均时间。

6 定量分析

研究者对TabPFN进行了大规模定量评估，使用了AutoML Benchmark和OpenML-CTR23两个数据集集合。这些基准数据集涵盖了多样的真实表格数据，经过精心挑选以保证复杂性、相关性与领域多样性。实验中包含29个分类数据集和28个回归数据集，样本量不超过1万，特征数不超过500，分类数不超过10。此外，还在其他基准数据集以及Kaggle的Tabular Playground Series五个竞赛数据集上进行了测试。比较对象涵盖了最新的主流方法，包括基于树的方法(Random Forest、XGBoost、CatBoost、LightGBM)、线性模型、支持向量机(SVM)以及多层感知机(MLP)。

评估指标方面，分类任务采用ROC AUC与准确率，回归任务采用决定系数 $R^{2}$ 与负均方根误差(Negative RMSE)。所有分数在各数据集上归一化，1.0代表最优，0.0代表最差。每组实验重复10次，随机种子与训练-测试划分均不同(90%训练，10%测试)。超参数调优通过随机搜索与五折交叉验证完成，时间预算在30秒至4小时之间。所有方法均在8核CPU上运行，TabPFN额外使用了一张消费级GPU(RTX 2080 Ti)。TabPFN的预训练在8张RTX 2080 GPU上进行，仅需两周，即可一次性完成，之后所有新数据集都能在单次前向传播下完成ICL预测。这一适中的计算需求，使得学术实验室也可复现。

6.1 与最新基线的比较

结果表明，TabPFN在分类和回归任务上均显著超越最强基线。分类任务中，默认设置下TabPFN的归一化ROC AUC为0.939，比CatBoost的0.752高0.187；调优后TabPFN达到0.952，仍比CatBoost的0.822高0.13。回归任务中，默认设置下TabPFN的归一化RMSE为0.923，高于CatBoost的0.872；调优后TabPFN为0.968，而CatBoost为0.875。即便给基线方法4小时调参，TabPFN在2.8秒(分类)和4.8秒(回归)的默认运行下依旧全面超越，分别实现5140倍与3000倍加速。进一步在refs. 14,15中的基准测试同样验证了TabPFN的优势，尤其是在此前树模型表现最佳的任务上。Kaggle五个Tabular Playground Series竞赛数据集中，默认TabPFN也全面超过默认CatBoost。

6.2 对多样数据属性的鲁棒性

研究者进一步分析了TabPFN在神经网络通常难以处理的数据特征下的表现。结果显示，TabPFN对无信息特征与离群点均非常鲁棒，而MLP在这些情况下性能显著下降。即便在样本量减少一半的情况下，TabPFN的性能仍能与最优方法在完整数据集上的表现相当。对数据集的子集分析表明，是否包含类别特征、缺失值，样本数与特征数的差异，并不会显著影响TabPFN相对于其他方法的表现。不过，研究者也强调，这并不意味着TabPFN能够很好地扩展到超过1万样本和500特征的规模。

6.3 与调优后的集成方法比较

最后，研究者将TabPFN与AutoGluon 1.0进行比较。AutoGluon通过集成多种机器学习模型(包括树模型和神经网络)，并结合后处理集成(PHE)生成最终预测。为检验TabPFN是否也能从这一策略受益，研究者提出了TabPFN (PHE)，即只集成TabPFN模型，并在随机搜索空间内调优其超参数。结果显示，在分类任务中，默认TabPFN(仅2.8秒)已超越运行4小时的AutoGluon；TabPFN (PHE)进一步将归一化ROC AUC提升至0.971，相比默认TabPFN的0.939和AutoGluon的0.914有显著优势。在回归任务中，超参数调优更为重要，TabPFN (PHE)在仅300秒的调优预算下，便超越了运行4小时的AutoGluon，实现48倍加速。

图 5 | 数据集间的鲁棒性与与调优后集成方法的性能比较。 a, 修改数据集的比较。TabPFN 对修改的敏感度不高于基线，并且在仅使用一半训练样本时即可复现 CatBoost(默认)的精度。此处每个实验的所有修改版本共享一次归一化，以避免负异常值。b, 按数据特征划分测试集，分析各子组性能。c, 分类性能。左：TabPFN (PHE) 相对 AutoGluon 的胜率(排除一次平局)；右：各方法调优过程中 ROC AUC 随时间变化，非集成方法的第一个点为默认配置。d, 回归性能，与 c 相同，但评价指标为 RMSE。区间表示 95%置信区间，Wilcoxon P 为双侧检验结果。

7 具备可解释性的基础模型

除了强大的预测性能之外，TabPFN还展现出多种基础模型能力，包括数据生成、密度估计、可复用嵌入学习与微调。研究者通过在German Credit Dataset(包含信贷风险信息)与mfeat-factors数据集(基于表格表示的手写数字分类)上的概念验证实验展示了这些能力。

TabPFN能够估计数值特征的概率密度函数(见Fig. 6a)，以及类别特征的概率质量函数。通过计算样本密度，可以实现异常检测，用于识别欺诈、设备故障、医疗紧急情况或低质量数据。TabPFN还可以生成模拟真实数据集特征的新表格样本(见Fig. 6b)，可应用于数据增强或隐私保护型数据共享。其架构学习到的特征表示具有良好的可迁移性，可应用于数据填补、聚类等下游任务。在mfeat-factors数据集上提取的嵌入(见Fig. 6c)表明，TabPFN学习到的表示相比原始数据在前两个主成分上具有更好的类别分离度。

此外，TabPFN还支持通过微调提升性能。与树模型不同，神经网络架构使其能够在特定数据集类别上进行迁移学习。研究者利用带有不同偏移的正弦曲线数据集进行了验证实验，结果显示即便微调与测试任务的标签差异很大，TabPFN依旧能够实现有效知识迁移，当数据分布更相似时，性能提升更显著(见Fig. 6d与Extended Data Fig. 4)。这为诸如医学研究中的跨数据集微调提供了潜在应用，能够训练出更通用的诊断模型。

为了提升模型的可解释性，研究者还开发了新的预测解释方法。可解释性对于在高风险领域部署模型至关重要。TabPFN支持基于SHAP(Shapley加性解释)的方法计算特征重要性，这是一种博弈论方法，用于度量每个特征对模型输出的贡献。Extended Data Fig. 3对比了逻辑回归、CatBoost与TabPFN的特征重要性与影响。结果显示，TabPFN在保持高精度的同时，能够学习到简洁且可解释的特征关系。相比之下，逻辑回归虽然易解释但精度不足，而CatBoost虽准确，但由于决策边界复杂且不光滑，整体可解释性较差。

图 6 | TabPFN 作为表格基础模型的应用展示。 a,b, 在 German Credit 数据集上进行数据密度估计(a)与新合成样本生成(b)。c, 在手写数字数据集(mfeat-factors)上展示 TabPFN 学习到的嵌入作为有效表征，不同类别形成不同聚类。d, 展示了对特定任务的微调效果。在包含多种正弦曲线的数据集上微调后，模型在另一个正弦曲线数据集上的预测更为准确。

8 结论

TabPFN代表了表格数据建模的重大变革，它依托ICL自主学习到了一种高效算法，在不超过1万样本和500特征的数据集上显著超越传统人工设计的方法。这种基于合成数据预训练的基础模型范式为表格数据分析带来了新的可能。未来研究方向包括：扩展至更大规模数据、处理数据漂移、探索跨任务的微调能力，以及深入理解其理论基础。同时，研究者还提出了利用专门先验处理特定数据类型(如时间序列、多模态数据)，以及医学相关模态(如心电图、神经影像、遗传数据)的设想。随着表格建模领域的持续发展，TabPFN等基础模型有望成为推动科研进展的重要工具。在“用户指南”部分，研究者也给出了如何有效使用TabPFN的具体说明，以促进其广泛应用。