一个Kaggle新手的🥈23名解决方案：仅仅是跟进出色的公开工作和想法

作者: SprAut23333 | 发布时间: 2024年1月23日 | 投票数: 19 | 竞赛排名: 23

感谢主办方和所有Kagglers分享了出色的工作和想法！作为一名Kaggle新手，我非常幸运地在第一次比赛中就获得了银牌。虽然在试验过程中我没有取得很多突破性的原创工作，但我愿意分享我的最终提交和选择。

1. 数据

使用 @aerdem4 的无监督方法对一小部分测试数据进行伪标签生成，以进行数据增强。

2. 分词 & TF-IDF 向量化

我遵循了 @datafan07 在测试数据上训练BPE分词器的通用流程，并选择了 @verracodeguacas 介绍的 SentencePiece分词器用于最终提交。

3. 文本纠正

我看到了关于不同文本纠正库许可证的讨论，但我仍然不清楚使用这些工具的权限，因为主办方没有明确的声明。我的最终解决方案包括使用autocorrect（LGPL-3.0许可证）对测试数据进行文本纠正。但我也选择了一个没有任何文本纠正的版本提交，它在私有LB上仍然处于银牌区域，分数为0.923。

4. 用于TF-IDF特征的机器学习模型

MultiNomialNB + SGDClassifier(linearSVC) + LightGBM(GBDT) + LightGBM(DART with GOSS) + CatBoost

两个LightGBM树模型使用不同gamma的Focal损失。

一些模型参数受到 @batprem 的慷慨分享的启发。

5. 基于Transformer的模型

在截止日期前的最后几天，我添加了 @mustafakeser4 的 DistilRoBerta 到我的集成中，在公开LB上立即从0.962提升到0.965，这给了我很大的信心和动力。

6. 其他技巧

将TF-IDF的最大特征数固定为5M。

A kaggle newbie's 🥈23rd solution: Just follow-up excellent public works & ideas