返回列表

6th place solution

403. OSIC Pulmonary Fibrosis Progression | osic-pulmonary-fibrosis-progression

开始: 2020-07-07 结束: 2020-10-06 医学影像分析 数据算法赛
第6名解决方案

第6名解决方案

作者:Y.Nakama (Grandmaster) | 排名:第6名

我要感谢 Kaggle 和主办方举办了这场有趣的比赛,也要感谢所有参赛者给了我很多灵感。同时祝贺获胜者们!

我的工作基于以下内容:

解决方案概览

OSIC-solution-overview

如何构建输入数据

正如我在我的 Notebook中展示的那样,我通过将每一次测量都视为“基线”测量来构建输入数据。“Week”用于为每次测量创建“Week_passed”。我们不知道测试数据中会给出哪个“Week”,因此这种输入数据构建方式为我们建立模型提供了鲁棒性。

如何处理图像数据

基于图像方法的 Notebooks,我使用了 EfficientNet-b0,图像大小为 320x320。
我尝试了其他 EfficientNet 模型,但当我在固定分位数值为 0.5 时,它们之间的结果差别不大,所以我使用了最小的一个。
这个 EfficientNet-b0 的输出与表格特征一起用于 FVC 和置信度模型的训练。

FVC 预测

FVC 预测与我的 Notebooks 几乎相同,区别在于我准备了 5 个模型并使用 sp.optimize.minimize 自动融合它们,权重为 [Lasso, Ridge, ElasticNet, SVM, NN] = [0.68573749, 0., 0., 0.07551167, 0.23750526]。

置信度预测

置信度标签是使用 FVC 的 OOF 预测值和 sp.optimize.minimize 生成的,如我的 Notebooks 所示。
置信度预测也与我的 Notebooks 几乎相同,区别在于我准备了 5 个模型并使用 sp.optimize.minimize 自动融合它们,权重为 [Lasso, Ridge, ElasticNet, SVM, NN] = [0.22062125, 0., 0., 0., 0.80819966]。

关于排名波动

有很多公开的 Notebooks 在 Public LB 上过拟合了。
Public LB 的数据量不多,所以你不需要太在意 Public LB 的分数。

交叉验证与 LB 变化

模型 CV Public LB Private LB 奖牌
LGB -6.85094 -6.9605 -7.0037
Ridge -6.73738 -6.9357 -6.8562 铜牌
Efficientnet-b0 + Ridge -6.58651 -6.8921 -6.8443 银牌
Efficientnet-b0 + Blend models v1 -