[第1名] Mel 频谱图 + 混合 ResNets 🌋🔥
[第1名] Mel 频谱图 + 混合 ResNets 🌋🔥
作者:Jie Feng, Gui Ming Jiang
比赛:Predict Volcanic Eruptions - INGV
首先,感谢 INGV 和 Kaggle 举办了这场比赛!
虽然这场比赛不计入排名,但我们在处理这个数据集的过程中获得了很多乐趣。
1. 频谱图
- 我们使用 librosa mel 频谱图生成了 256x256 的频谱图。
- Notebook 链接
- 在频谱图中,较低的频率被分配了更多的空间。
- 256x256 的图像被输入到 CNN 模型中:ResNext、SEResNet、ResNeSt,它们的输出结果进行了集成。
- 在这个数据集上,EfficientNets 的表现不如 ResNets。
- 表现较好的模型的验证集 MAE 小于 1e6。
- ResNet 公开排行榜 分数:4100000 - 4700000
- ResNeXt101 : 4121853
- ResNeSt269e: 4357483
- SeResNet152: 4737569
- 其他 ResNet 模型的分数也在此范围内
2. 表格数据集
- 感谢 @carpediemamigo 和 @josemori 提供的精彩 Notebooks。
- 他们 Notebooks 中的 tsfresh 数据集推断结果和树模型数据集推断结果被用于最终的集成中。
- 我们未能在该数据集上很好地运行神经网络模型(例如 TabNet/MLP)。
3. 最终集成
- 我们的最终模型由以下模型通过加权混合而成:
- ResNeXt101 ~ 50%
- ResNest269e ~ 20%
- 其他 ResNet 类型模型 ~ 20%
- 树模型 ~ 10%
- 我们发现,集成足够数量的模型,即使是基于相同数据处理的模型,也能提供足够的结果稳定性(交换 1 或 2 个模型对 LB 分数没有显著差异)。
- 同时,集成足够数量的模型也有利于私有排行榜 的稳定性。
感谢您的阅读!希望这篇文章对您有所帮助。