第二名解决方案 - ARIEL 数据挑战赛 2025

第二名解决方案

作者: BeeMax
竞赛: ARIEL 数据挑战赛 2025 (ARIEL Data Challenge 2025)
发布日期: 2025-10-02

提交 Notebook 链接

引言

首先，我要感谢组织者举办这场精彩的竞赛！

我的解决方案使用线性回归，基于多项式拟合的凌日深度估计。我没有模拟凌日的完整物理过程，而是创建了捕捉光变曲线凌日形状模式的特征。

数据预处理

我使用了竞赛提供的标准预处理，没有额外步骤。

特征工程

大多数特征基于多项式拟合。我通过检测二阶导数的 4 个极值点来找到凌日边界——即光变曲线曲率变化最快的点。为了深度估计和去趋势，我将选定次数的多项式拟合到凌日外的点，并将曲线除以该插值。

极值点检测示意图

特征分为三组。第一：基于 SNR 权重平均的 AIRS 频率深度估计，灵感来自去年的解决方案。第二：跨相邻 AIRS 频率的相交窗口的深度估计。第三：单独来自 FG1 通道的深度估计。

对于 SNR 加权组，我优化了多项式次数 (1-5)，最小化：err = RMSE × degree^(n_transit / n_total)，其中 RMSE 计算于原始曲线与凌日区域外多项式插值之间，degree 是用于拟合的多项式次数，n_transit 是凌日内的点数，n_total 是总观测点数。当凌日占据观测的更多部分时，可用于基线拟合的点更少，使得高次数不可靠。此优化仅在私有榜单上带来了微小改进。对于其他组，我使用了固定的 3 次多项式。

对于这三组特征中的每一组（AIRS 平均、AIRS 窗口、FG1），我计算了多个深度值：凌日平均值、凌日中点以及各种百分位数。对于噪声太大的频率窗口，我没有使用多项式插值，而是使用了基于凌日内外平均通量比率的粗略估计。

我还仅为 SNR 加权 AIRS 和 FG1 组计算了斜率特征——这些特征测量边界点之间的通量变化率作为壁陡峭度。另一小组使用了剩余的物理信息，但提供的改进很小。

特征示意图

异常值处理

我将靠近观测边缘的凌日识别为异常值，并为它们训练了单独的 Ridge 模型。异常值模型在所有数据上训练，而主模型仅使用正常情况。对于质量非常差的凌日，我在训练期间将其移除，并在推理时使用更大的 sigma 值。

Sigma 估计

对于不确定性估计，我使用了 Bootstrapping：创建多个重采样数据集，在每个数据集上训练模型，取所有模型预测的标准差，并乘以优化后的常数。这与按频率平均的交叉验证标准差线性结合。

小型消融实验

由于指标不稳定，结果可能会通过微小的特征和超参数调优得到改善。

方法	公共榜单分数	私有榜单分数
完整方案	60.9	61.2
无 SNR 加权平均	60.6	61.0
无斜率特征	52.6	54.1
无 Bootstrapping	46.3	57.6
无次数优化	60.4	61.1
无物理特征	60.2	61.2
无百分位特征	57.5	57.2

在“无 Bootstrapping"中，我使用了验证集的 RMSE 估计，并将异常值乘以 5 以防止零分。在“无百分位特征”中，我只保留了平均凌日深度和中点凌日深度测量值。

结论

更多实现细节可在 Notebook 中找到。

2nd Place Solution