6th place solution

第6名解决方案

作者：Y.Nakama (Grandmaster) | 排名：第6名

我要感谢 Kaggle 和主办方举办了这场有趣的比赛，也要感谢所有参赛者给了我很多灵感。同时祝贺获胜者们！

我的工作基于以下内容：

我的表格数据方法 Notebooks
- OSIC LGB Baseline
- OSIC Ridge Baseline
图像方法 Notebooks
- Linear Decay based on ResNet CNN
- K-Fold TF EfficientNet Models Training

解决方案概览

如何构建输入数据

正如我在我的 Notebook中展示的那样，我通过将每一次测量都视为“基线”测量来构建输入数据。“Week”用于为每次测量创建“Week_passed”。我们不知道测试数据中会给出哪个“Week”，因此这种输入数据构建方式为我们建立模型提供了鲁棒性。

如何处理图像数据

基于图像方法的 Notebooks，我使用了 EfficientNet-b0，图像大小为 320x320。
我尝试了其他 EfficientNet 模型，但当我在固定分位数值为 0.5 时，它们之间的结果差别不大，所以我使用了最小的一个。
这个 EfficientNet-b0 的输出与表格特征一起用于 FVC 和置信度模型的训练。

FVC 预测

FVC 预测与我的 Notebooks 几乎相同，区别在于我准备了 5 个模型并使用 sp.optimize.minimize 自动融合它们，权重为 [Lasso, Ridge, ElasticNet, SVM, NN] = [0.68573749, 0., 0., 0.07551167, 0.23750526]。

置信度预测

置信度标签是使用 FVC 的 OOF 预测值和 sp.optimize.minimize 生成的，如我的 Notebooks 所示。
置信度预测也与我的 Notebooks 几乎相同，区别在于我准备了 5 个模型并使用 sp.optimize.minimize 自动融合它们，权重为 [Lasso, Ridge, ElasticNet, SVM, NN] = [0.22062125, 0., 0., 0., 0.80819966]。

关于排名波动

有很多公开的 Notebooks 在 Public LB 上过拟合了。
Public LB 的数据量不多，所以你不需要太在意 Public LB 的分数。

交叉验证与 LB 变化

模型	CV	Public LB	Private LB	奖牌
LGB	-6.85094	-6.9605	-7.0037	无
Ridge	-6.73738	-6.9357	-6.8562	铜牌
Efficientnet-b0 + Ridge	-6.58651	-6.8921	-6.8443	银牌
Efficientnet-b0 + Blend models v1	- 同比赛其他方案 1st place "mostly" unpredictable solution 4th Place Solution 5th place solution top 9 solution 10th Place Solution