返回列表

7th Place solution

626. NeurIPS - Ariel Data Challenge 2024 | ariel-data-challenge-2024

开始: 2024-08-01 结束: 2024-10-31 物理与天文 数据算法赛
第 7 名解决方案 - ARIEL 数据挑战赛 2024
作者: JungleBeastDS (MASTER)
发布日期: 2024-11-01
竞赛排名: 第 7 名
竞赛: ARIEL Data Challenge 2024

第 7 名解决方案

感谢 ARIEL 团队举办这次比赛,非常有趣。
也要感谢所有精彩的公开 Notebook。它们对我起步非常有帮助。

简短总结:
无深度学习
凌日深度使用 Sergei 的多项式回归方法拟合 https://www.kaggle.com/code/sergeifironov/ariel-only-correlation

凌日检测 (Transit Detection)

  1. 计算整个信号的一阶导数。在一阶导数上使用 30 的卷积窗口。找到最小值和最大值,这两个是关键点。然后使用固定的入凌/出凌 (ingress/egress) 窗口大小拟合多项式和凌日深度。
  2. 从关键点开始计数,直到点进入拟合多项式的 1-3 个标准差范围内。这是对入凌/出凌持续时间更精确的估计。然后我使用更新的凌日区域继续查找凌日。

预测平均凌日 (Predicting Mean Transit)

  • 平均波长 0 到 240
  • 对每个区域单独使用高斯滤波器。
  • 平均了 2 次到 4 次多项式拟合的预测值。如果曲率太大,我则使用 4 次。

基本数据处理 (Basic data processing)

它们完全没有影响交叉验证 (CV),但在公共/私人排行榜上为我赢得了约 20 分

  • 使用空间列对称的平均值填充 NaN 值,并在两个最接近的波长之间插值通量(在 CV 中插值方法要好得多,但在公共排行榜上较差)
    数据处理示意图

预测单个波长 (Predict individual wavelengths)

  • 在波长轴上卷积信号,窗口大小为 20 到 60,基于信号的 MAE。因此,如果 MAE 较低,我可以承受更小的卷积窗口。
  • 单个波长预测值通过均值进行偏移。有时也会缩小比例。

Sigma (基于两个组件缩放估计)

  • 基于拟合多项式曲线与未处理信号之间残差的 MAE。此 MAE 也通过拟合曲线归一化,以便与凌日深度 (百分比) 单位相同。
  • 基于光谱曲线的“平坦度”。原因是我在波长上卷积了信号。因此,平坦光谱曲线的估计将具有更高的确定性。

预测平坦曲线 (Predicting flat curves)

  • 我在训练数据中看到大多数光谱曲线都是平坦的。因此,我试图预测光谱曲线是否平坦。
    如果是,我预测平均凌日并设置非常低的标准差 (也基于我 earlier 提到的两个组件)。
同比赛其他方案