[48th place solution] Multi-label K-Fold for CV Strategy

592. Linking Writing Processes to Writing Quality | linking-writing-processes-to-writing-quality

开始: 2023-10-02 结束: 2024-01-09 智能评测数据算法赛

第48名解决方案：多标签K折交叉验证策略

[第48名解决方案] 用于CV策略的多标签K折方法

感谢 @kaggle 和 The Learning Agency Lab 举办这场精彩的竞赛。同时感谢制作优秀公开笔记本的Kagglers们。

虽然我没有进行充分研究来验证我的假设，但我认为使用多标签分层K折（Multilabel Stratified K-Fold）https://github.com/trent-b/iterative-stratification 使我的交叉验证策略更加稳健，并帮助我构建了更稳定的解决方案。

特征工程

除了公开笔记本中的特征外，我还使用了TF-IDF向量化器（char_wb）和计数向量化器（仅字符）从重构的文章中提取更多特征。但缺点是这使得特征工程过程更加耗时。

交叉验证策略

我将其他重要特征作为分数之外的附加标签使用。这些特征是基于探索性数据分析和线性相关性分析选择的。
cv-strategy

建模

在建模部分，我使用了6个随机种子和10折的LGBM进行训练，并对模型结果取平均作为最终的LGBM预测部分。

与公开模型的加权融合

最终预测 = 0.65 × LGBM预测结果 + 0.35 × Denselight预测结果（来自公开笔记本）

该流程的得分为：

公开榜得分：0.576（第48名）
私有榜得分：0.567（第48名）

无效尝试

基于编码器的Transformer模型（仅使用重构文章）
带注意力机制的LSTM（使用重构文章及特征）
特征选择网络
K最佳特征选择

同比赛其他方案

[1st place solution] Data Cleaning+FE+External Data+Model Ensemble

[3rd place solution] Trust CV is all you need.

[3rd place solution] Blend MLM pretrained DeBERTa & GBM

5th Place Solution: Features are all you need!

[CPU Only]６th Place Solution for "Linking Writing Processes to Writing Quality"