第 7 名解决方案 - ARIEL 数据挑战赛 2024
作者: JungleBeastDS (MASTER)
发布日期: 2024-11-01
竞赛排名: 第 7 名
竞赛: ARIEL Data Challenge 2024
第 7 名解决方案
感谢 ARIEL 团队举办这次比赛,非常有趣。
也要感谢所有精彩的公开 Notebook。它们对我起步非常有帮助。
简短总结:
无深度学习
凌日深度使用 Sergei 的多项式回归方法拟合 https://www.kaggle.com/code/sergeifironov/ariel-only-correlation。
凌日检测 (Transit Detection)
- 计算整个信号的一阶导数。在一阶导数上使用 30 的卷积窗口。找到最小值和最大值,这两个是关键点。然后使用固定的入凌/出凌 (ingress/egress) 窗口大小拟合多项式和凌日深度。
- 从关键点开始计数,直到点进入拟合多项式的 1-3 个标准差范围内。这是对入凌/出凌持续时间更精确的估计。然后我使用更新的凌日区域继续查找凌日。
预测平均凌日 (Predicting Mean Transit)
- 平均波长 0 到 240
- 对每个区域单独使用高斯滤波器。
- 平均了 2 次到 4 次多项式拟合的预测值。如果曲率太大,我则使用 4 次。
基本数据处理 (Basic data processing)
它们完全没有影响交叉验证 (CV),但在公共/私人排行榜上为我赢得了约 20 分
- 使用空间列对称的平均值填充 NaN 值,并在两个最接近的波长之间插值通量(在 CV 中插值方法要好得多,但在公共排行榜上较差)

预测单个波长 (Predict individual wavelengths)
- 在波长轴上卷积信号,窗口大小为 20 到 60,基于信号的 MAE。因此,如果 MAE 较低,我可以承受更小的卷积窗口。
- 单个波长预测值通过均值进行偏移。有时也会缩小比例。
Sigma (基于两个组件缩放估计)
- 基于拟合多项式曲线与未处理信号之间残差的 MAE。此 MAE 也通过拟合曲线归一化,以便与凌日深度 (百分比) 单位相同。
- 基于光谱曲线的“平坦度”。原因是我在波长上卷积了信号。因此,平坦光谱曲线的估计将具有更高的确定性。
预测平坦曲线 (Predicting flat curves)
- 我在训练数据中看到大多数光谱曲线都是平坦的。因此,我试图预测光谱曲线是否平坦。
如果是,我预测平均凌日并设置非常低的标准差 (也基于我 earlier 提到的两个组件)。