第16名 “简单” 解决方案
第16名 “简单” 解决方案
作者: Kanna Hashimoto, hatry
比赛排名: 第16名
首先,我们(@Kanna Hashimoto,@hatry)感谢主办方组织了这场主题非常有趣的竞赛。
方案概览
- 针对 site1/site2 的对抗验证
- 我们的策略是只使用那些不影响站点分类的特征进行建模。(结果可能并没有意义。)
- 我们进行了对抗验证,仅使用 loading 特征来区分 site1(所有训练数据)或 site2(测试数据,已知属于 site2)。结果显示 AUC 为 0.9。
- 排除了对 site1 和 site2 分类贡献最大的前 3 个特征后,AUC 下降了 0.6 ~ 0.7。
- 堆叠
- 第一层模型的本地交叉验证分数在 0.163 ~ 0.1575 之间。
- 第二层模型的本地 CV 分数为 0.15674,LB 分数为 0.15766,Private 分数为 0.15786。
- 我们没有使用 3D CNN 模型。
特征工程
- loading, fnc 特征
- 图像间的相关性
- 我们计算了每个用户 ID 对应的 53 张 fMRI 3D 图像的相关系数。去除 0 像素略微提升了本地 CV 分数。
- 直方图特征,统计特征
- 图像直方图和统计特征也非常有用。仅在整个图像上计算直方图和统计数据就能提高本地 CV 分数,但在被分割成更小立方体的图像上计算特征效果更好。
模型
- 第一层模型
- Ridge + Optuna + 随机种子平均
- MLP + 随机种子平均
- LightGBM + 随机种子平均
- 第二层模型