626. NeurIPS - Ariel Data Challenge 2024 | ariel-data-challenge-2024
我想感谢主办方组织了如此精彩的比赛,也要感谢在讨论中分享绝佳想法的人,以及我的队友 kyu999 和 yuto。
我们只有一个月的时间来准备这次比赛,但我们非常享受这个过程。
我们的解决方案相对简单。
我们的解决方案由波长预测部分(WL Prediction Part)和 Sigma 预测部分(Sigma Prediction Part)组成。
波长预测部分基于 Sergei 的方法。
我们通过这种方法取得了 0.572 的 Leaderboard 分数。
我们将 Sergei 的方法扩展为多波长预测版本。
由于噪声的存在,仅通过 AIRS 中每个波长的光曲线预测不足以扩展此方法。
我们通过在 AIRS 的波长轴上取滑动窗口均值来降低噪声,这使得扩展该方法成为可能。
FGS1 数据似乎噪声较大,所以我们通过 FGS1 和 AIRS 光曲线的均值来预测 wl_1。
我们利用随机森林(Random Forest)来预测 sigma。
该方法将 Leaderboard 分数从 0.572 提升到了 0.607。
我们本想找到更好的方法,但我们在截止日期前 2 天才发现这个方法,没有太多时间改进它。:(
我们认为模型容易过拟合,所以选择了随机森林。
我们使用以下特征来预测第 i 个波长的 sigma。
注意,q 表示 MAE/mean(signal during transit),其形状为 (num_planet, num_wavelength);s 表示通过 Sergei 方法进行的 wl 预测,其形状为 (num_planet, num_wavelength);data 表示光曲线信号,其形状为 (num_planet, num_time, num_wavelength)。
我们简单地使用了 5 折分层 KFold(Stratified KFold)进行交叉验证。
我们无法构建出 Leaderboard 分数优于 0.531 的 CNN 深度学习模型。
验证分数波动很大,但增大批次大小(batch size)并在 sigma 预测中添加 1e-8 使训练更稳定。
我期待看到深度学习的解决方案。