37th place solution - TabPFN with only comp. data and basic FE.

第 37 名解决方案 - 仅使用竞赛数据和基础特征工程的 TabPFN

作者: Kirderf (Grandmaster)
排名: 第 37 名
发布日期: 2025 年 4 月 1 日

我的解决方案方法

由于数据集非常小，TabPFN 模型是一个很好的选择。同时跳过特征工程（例如创建更多特征）以减少在小数据集上过拟合的风险，仅处理基础特征工程。此外，不添加任何其他数据集，因为这可能会影响小训练集和测试集之间的分布，因为它们都是由同一个 LLM 生成的。

仅使用 TabPFN 模型和框架，简单的特征工程以及仅使用合成生成的数据，在私有排行榜上获得了最佳分数。

我获得的次佳分数是使用 XGB，训练时添加了额外的原始数据到生成数据中。
XGB 通常是二分类数据集的最佳选择。

回过头来看，也许应该将两者集成起来，以获得更好的分数。

就是这样！Happy Kaggling!

TabPFN 模型框架 https://github.com/PriorLabs/TabPFN