返回列表

[48th place solution] Multi-label K-Fold for CV Strategy

592. Linking Writing Processes to Writing Quality | linking-writing-processes-to-writing-quality

开始: 2023-10-02 结束: 2024-01-09 智能评测 数据算法赛
第48名解决方案:多标签K折交叉验证策略

[第48名解决方案] 用于CV策略的多标签K折方法

感谢 @kaggle 和 The Learning Agency Lab 举办这场精彩的竞赛。同时感谢制作优秀公开笔记本的Kagglers们。

虽然我没有进行充分研究来验证我的假设,但我认为使用多标签分层K折(Multilabel Stratified K-Fold)https://github.com/trent-b/iterative-stratification 使我的交叉验证策略更加稳健,并帮助我构建了更稳定的解决方案。

特征工程

除了公开笔记本中的特征外,我还使用了TF-IDF向量化器(char_wb)和计数向量化器(仅字符)从重构的文章中提取更多特征。但缺点是这使得特征工程过程更加耗时。

交叉验证策略

我将其他重要特征作为分数之外的附加标签使用。这些特征是基于探索性数据分析和线性相关性分析选择的。
cv-strategy

建模

在建模部分,我使用了6个随机种子和10折的LGBM进行训练,并对模型结果取平均作为最终的LGBM预测部分。

与公开模型的加权融合

最终预测 = 0.65 × LGBM预测结果 + 0.35 × Denselight预测结果(来自公开笔记本)

该流程的得分为:

  • 公开榜得分:0.576(第48名)
  • 私有榜得分:0.567(第48名)

无效尝试

  • 基于编码器的Transformer模型(仅使用重构文章)
  • 带注意力机制的LSTM(使用重构文章及特征)
  • 特征选择网络
  • K最佳特征选择
同比赛其他方案