670. NeurIPS - Ariel Data Challenge 2025 | ariel-data-challenge-2025
首先,我要感谢组织者举办这场精彩的竞赛!
我的解决方案使用线性回归,基于多项式拟合的凌日深度估计。我没有模拟凌日的完整物理过程,而是创建了捕捉光变曲线凌日形状模式的特征。
我使用了竞赛提供的标准预处理,没有额外步骤。
大多数特征基于多项式拟合。我通过检测二阶导数的 4 个极值点来找到凌日边界——即光变曲线曲率变化最快的点。为了深度估计和去趋势,我将选定次数的多项式拟合到凌日外的点,并将曲线除以该插值。

特征分为三组。第一:基于 SNR 权重平均的 AIRS 频率深度估计,灵感来自去年的解决方案。第二:跨相邻 AIRS 频率的相交窗口的深度估计。第三:单独来自 FG1 通道的深度估计。
对于 SNR 加权组,我优化了多项式次数 (1-5),最小化:err = RMSE × degree^(n_transit / n_total),其中 RMSE 计算于原始曲线与凌日区域外多项式插值之间,degree 是用于拟合的多项式次数,n_transit 是凌日内的点数,n_total 是总观测点数。当凌日占据观测的更多部分时,可用于基线拟合的点更少,使得高次数不可靠。此优化仅在私有榜单上带来了微小改进。对于其他组,我使用了固定的 3 次多项式。
对于这三组特征中的每一组(AIRS 平均、AIRS 窗口、FG1),我计算了多个深度值:凌日平均值、凌日中点以及各种百分位数。对于噪声太大的频率窗口,我没有使用多项式插值,而是使用了基于凌日内外平均通量比率的粗略估计。
我还仅为 SNR 加权 AIRS 和 FG1 组计算了斜率特征——这些特征测量边界点之间的通量变化率作为壁陡峭度。另一小组使用了剩余的物理信息,但提供的改进很小。
%20%20.png?generation=1759414981223394&alt=media)
我将靠近观测边缘的凌日识别为异常值,并为它们训练了单独的 Ridge 模型。异常值模型在所有数据上训练,而主模型仅使用正常情况。对于质量非常差的凌日,我在训练期间将其移除,并在推理时使用更大的 sigma 值。
对于不确定性估计,我使用了 Bootstrapping:创建多个重采样数据集,在每个数据集上训练模型,取所有模型预测的标准差,并乘以优化后的常数。这与按频率平均的交叉验证标准差线性结合。
由于指标不稳定,结果可能会通过微小的特征和超参数调优得到改善。
| 方法 | 公共榜单分数 | 私有榜单分数 |
|---|---|---|
| 完整方案 | 60.9 | 61.2 |
| 无 SNR 加权平均 | 60.6 | 61.0 |
| 无斜率特征 | 52.6 | 54.1 |
| 无 Bootstrapping | 46.3 | 57.6 |
| 无次数优化 | 60.4 | 61.1 |
| 无物理特征 | 60.2 | 61.2 |
| 无百分位特征 | 57.5 | 57.2 |
在“无 Bootstrapping"中,我使用了验证集的 RMSE 估计,并将异常值乘以 5 以防止零分。在“无百分位特征”中,我只保留了平均凌日深度和中点凌日深度测量值。
更多实现细节可在 Notebook 中找到。