646. Playground Series - Season 5, Episode 3 | playground-series-s5e3
由于数据集非常小,TabPFN 模型是一个很好的选择。同时跳过特征工程(例如创建更多特征)以减少在小数据集上过拟合的风险,仅处理基础特征工程。此外,不添加任何其他数据集,因为这可能会影响小训练集和测试集之间的分布,因为它们都是由同一个 LLM 生成的。
https://github.com/PriorLabs/TabPFN
仅使用 TabPFN 模型和框架,简单的特征工程以及仅使用合成生成的数据,在私有排行榜上获得了最佳分数。
我获得的次佳分数是使用 XGB,训练时添加了额外的原始数据到生成数据中。
XGB 通常是二分类数据集的最佳选择。
回过头来看,也许应该将两者集成起来,以获得更好的分数。
就是这样!Happy Kaggling!