626. NeurIPS - Ariel Data Challenge 2024 | ariel-data-challenge-2024
这是一场精彩的比赛!多年来,我一直怀着极大的兴趣关注天体物理学的新闻。他们还能在这些模糊的像素中看到什么?他们何时才能最终找到一颗宜居行星?而现在,我有幸亲自为此做出了贡献。
我要感谢比赛主办方、Ariel 任务,特别是 @GordonYip 回答了重要的问题。我还要感谢所有提供了正确数据校准过程 notebook 的作者。如果没有这个,我的参与几乎没有什么意义。在文章中很难找到关于校准的信息!感谢 @shlomoron 提供的 meme 主题和有趣的评论 😀
我的解决方案并不是特别复杂。以下是细分说明:
我注意到像素数据中的异常值,并在频率轴方向上用高斯函数平滑了它们。最终光谱中未包含的“额外”波长在这里起到了一定作用。稳定提高了 0.002。
没有什么比 SG (Savitzky-Golay) 更好的了。它足够快并且能平滑一切。我甚至平滑了预测结果。
没有什么比提交结果为 0 更痛苦的了。主要问题是预测的凌日边界不正确。在测试集中,它们比训练集中的更宽或更窄。在时间方向上使用 SG 平滑来寻找边界。确保光通量在左边界减少,在右边界增加。
特征构建过程与我的基线类似。我们构建一个多项式,找到如何“提升”凌日区域以与非凌日部分对齐。使用 MAE 和 logpdf 函数来评估我们找到系数的效果。
为频率总和构建一个通用多项式。对于每个频率,尝试找到系数,将凌日部分作为 B,外部部分作为 A 拉到此多项式。1 - A/B 是单个频率的目标特征。跨频率区间求和。我从理论上知道,某些区域对应于基本气体 CH4、H2O、CO2、CO、NH3 的吸收区。但构建特征的最佳频率区域结果却不同。我混合使用遗传算法和手动选择来找到最佳区间。
我只估计了每个光谱的平均 sigma。根据行星最大和最小预测之间的差异建立回归。
两种类型:启发式和 CNN。
具有看似现实权重的特征之和。训练集 0.666,公开榜 0.666。对于差异 <0.00018 和更大的预测,采用两种不同的方法。对于较大的光谱,可以使用找到的系数。对于较小的光谱,最好不要。
主要挑战是避免过拟合。实验确定窗口中的最大频率计数为 21。这在物理上有意义,接近不同气体传输带之间的距离。重要的是模型不要在两个波段上过拟合。双头模型,一个预测 283 个光谱点,第二个头预测平均 sigma。损失函数 - GaussianLoss。
训练集 0.678,测试集 0.684。
通过训练集上的最佳 RMSE 选择权重。
训练集 0.681,公开榜 0.692。
预测气体成分并求和预测的 TauREX 气体光谱。