第 6 名解决方案 - Ariel 数据挑战赛 2024

第 6 名解决方案

比赛：Ariel 数据挑战赛 2024 (Ariel Data Challenge 2024)

作者：Sergei Fironov (Grandmaster), Pizzaboi (Master)

发布日期：2024-10-31

排名：第 6 名

这是一场精彩的比赛！多年来，我一直怀着极大的兴趣关注天体物理学的新闻。他们还能在这些模糊的像素中看到什么？他们何时才能最终找到一颗宜居行星？而现在，我有幸亲自为此做出了贡献。

我要感谢比赛主办方、Ariel 任务，特别是 @GordonYip 回答了重要的问题。我还要感谢所有提供了正确数据校准过程 notebook 的作者。如果没有这个，我的参与几乎没有什么意义。在文章中很难找到关于校准的信息！感谢 @shlomoron 提供的 meme 主题和有趣的评论 😀

我的解决方案并不是特别复杂。以下是细分说明：

数据处理

我注意到像素数据中的异常值，并在频率轴方向上用高斯函数平滑了它们。最终光谱中未包含的“额外”波长在这里起到了一定作用。稳定提高了 0.002。

平滑处理

没有什么比 SG (Savitzky-Golay) 更好的了。它足够快并且能平滑一切。我甚至平滑了预测结果。

凌日区域预测

没有什么比提交结果为 0 更痛苦的了。主要问题是预测的凌日边界不正确。在测试集中，它们比训练集中的更宽或更窄。在时间方向上使用 SG 平滑来寻找边界。确保光通量在左边界减少，在右边界增加。

模型特征

特征构建过程与我的基线类似。我们构建一个多项式，找到如何“提升”凌日区域以与非凌日部分对齐。使用 MAE 和 logpdf 函数来评估我们找到系数的效果。
为频率总和构建一个通用多项式。对于每个频率，尝试找到系数，将凌日部分作为 B，外部部分作为 A 拉到此多项式。1 - A/B 是单个频率的目标特征。跨频率区间求和。我从理论上知道，某些区域对应于基本气体 CH4、H2O、CO2、CO、NH3 的吸收区。但构建特征的最佳频率区域结果却不同。我混合使用遗传算法和手动选择来找到最佳区间。

Sigma 估计

我只估计了每个光谱的平均 sigma。根据行星最大和最小预测之间的差异建立回归。

模型

两种类型：启发式和 CNN。

启发式

具有看似现实权重的特征之和。训练集 0.666，公开榜 0.666。对于差异 <0.00018 和更大的预测，采用两种不同的方法。对于较大的光谱，可以使用找到的系数。对于较小的光谱，最好不要。

CNN

主要挑战是避免过拟合。实验确定窗口中的最大频率计数为 21。这在物理上有意义，接近不同气体传输带之间的距离。重要的是模型不要在两个波段上过拟合。双头模型，一个预测 283 个光谱点，第二个头预测平均 sigma。损失函数 - GaussianLoss。
训练集 0.678，测试集 0.684。

混合

通过训练集上的最佳 RMSE 选择权重。
训练集 0.681，公开榜 0.692。

在公开榜无效

预测气体成分并求和预测的 TauREX 气体光谱。

最终 Notebook https://www.kaggle.com/code/sergeifironov/new-blend-pdf?scriptVersionId=204505791

6th place solution