返回列表

37th place solution - TabPFN with only comp. data and basic FE.

646. Playground Series - Season 5, Episode 3 | playground-series-s5e3

开始: 2025-03-01 结束: 2025-03-31 气象预报 数据算法赛
第 37 名解决方案 - 仅使用竞赛数据和基础特征工程的 TabPFN

第 37 名解决方案 - 仅使用竞赛数据和基础特征工程的 TabPFN

作者: Kirderf (Grandmaster)
排名: 第 37 名
发布日期: 2025 年 4 月 1 日

我的解决方案方法

由于数据集非常小,TabPFN 模型是一个很好的选择。同时跳过特征工程(例如创建更多特征)以减少在小数据集上过拟合的风险,仅处理基础特征工程。此外,不添加任何其他数据集,因为这可能会影响小训练集和测试集之间的分布,因为它们都是由同一个 LLM 生成的。

模型框架

https://github.com/PriorLabs/TabPFN

结果

仅使用 TabPFN 模型和框架,简单的特征工程以及仅使用合成生成的数据,在私有排行榜上获得了最佳分数。

其他

我获得的次佳分数是使用 XGB,训练时添加了额外的原始数据到生成数据中。
XGB 通常是二分类数据集的最佳选择。

回过头来看,也许应该将两者集成起来,以获得更好的分数。


就是这样!Happy Kaggling!

同比赛其他方案