403. OSIC Pulmonary Fibrosis Progression | osic-pulmonary-fibrosis-progression
我要感谢 Kaggle 和主办方举办了这场有趣的比赛,也要感谢所有参赛者给了我很多灵感。同时祝贺获胜者们!
我的工作基于以下内容:
正如我在我的 Notebook中展示的那样,我通过将每一次测量都视为“基线”测量来构建输入数据。“Week”用于为每次测量创建“Week_passed”。我们不知道测试数据中会给出哪个“Week”,因此这种输入数据构建方式为我们建立模型提供了鲁棒性。
基于图像方法的 Notebooks,我使用了 EfficientNet-b0,图像大小为 320x320。
我尝试了其他 EfficientNet 模型,但当我在固定分位数值为 0.5 时,它们之间的结果差别不大,所以我使用了最小的一个。
这个 EfficientNet-b0 的输出与表格特征一起用于 FVC 和置信度模型的训练。
FVC 预测与我的 Notebooks 几乎相同,区别在于我准备了 5 个模型并使用 sp.optimize.minimize 自动融合它们,权重为 [Lasso, Ridge, ElasticNet, SVM, NN] = [0.68573749, 0., 0., 0.07551167, 0.23750526]。
置信度标签是使用 FVC 的 OOF 预测值和 sp.optimize.minimize 生成的,如我的 Notebooks 所示。
置信度预测也与我的 Notebooks 几乎相同,区别在于我准备了 5 个模型并使用 sp.optimize.minimize 自动融合它们,权重为 [Lasso, Ridge, ElasticNet, SVM, NN] = [0.22062125, 0., 0., 0., 0.80819966]。
有很多公开的 Notebooks 在 Public LB 上过拟合了。
Public LB 的数据量不多,所以你不需要太在意 Public LB 的分数。
| 模型 | CV | Public LB | Private LB | 奖牌 |
|---|---|---|---|---|
| LGB | -6.85094 | -6.9605 | -7.0037 | 无 |
| Ridge | -6.73738 | -6.9357 | -6.8562 | 铜牌 |
| Efficientnet-b0 + Ridge | -6.58651 | -6.8921 | -6.8443 | 银牌 |
| Efficientnet-b0 + Blend models v1 | - |