返回列表

2nd Place Solution

670. NeurIPS - Ariel Data Challenge 2025 | ariel-data-challenge-2025

开始: 2025-06-26 结束: 2025-09-24 物理与天文 数据算法赛
第二名解决方案 - ARIEL 数据挑战赛 2025

第二名解决方案

作者: BeeMax
竞赛: ARIEL 数据挑战赛 2025 (ARIEL Data Challenge 2025)
发布日期: 2025-10-02

提交 Notebook 链接

引言

首先,我要感谢组织者举办这场精彩的竞赛!

我的解决方案使用线性回归,基于多项式拟合的凌日深度估计。我没有模拟凌日的完整物理过程,而是创建了捕捉光变曲线凌日形状模式的特征。

数据预处理

我使用了竞赛提供的标准预处理,没有额外步骤。

特征工程

大多数特征基于多项式拟合。我通过检测二阶导数的 4 个极值点来找到凌日边界——即光变曲线曲率变化最快的点。为了深度估计和去趋势,我将选定次数的多项式拟合到凌日外的点,并将曲线除以该插值。

极值点检测示意图

特征分为三组。第一:基于 SNR 权重平均的 AIRS 频率深度估计,灵感来自去年的解决方案。第二:跨相邻 AIRS 频率的相交窗口的深度估计。第三:单独来自 FG1 通道的深度估计。

对于 SNR 加权组,我优化了多项式次数 (1-5),最小化:err = RMSE × degree^(n_transit / n_total),其中 RMSE 计算于原始曲线与凌日区域外多项式插值之间,degree 是用于拟合的多项式次数,n_transit 是凌日内的点数,n_total 是总观测点数。当凌日占据观测的更多部分时,可用于基线拟合的点更少,使得高次数不可靠。此优化仅在私有榜单上带来了微小改进。对于其他组,我使用了固定的 3 次多项式。

对于这三组特征中的每一组(AIRS 平均、AIRS 窗口、FG1),我计算了多个深度值:凌日平均值、凌日中点以及各种百分位数。对于噪声太大的频率窗口,我没有使用多项式插值,而是使用了基于凌日内外平均通量比率的粗略估计。

我还仅为 SNR 加权 AIRS 和 FG1 组计算了斜率特征——这些特征测量边界点之间的通量变化率作为壁陡峭度。另一小组使用了剩余的物理信息,但提供的改进很小。

特征示意图

异常值处理

我将靠近观测边缘的凌日识别为异常值,并为它们训练了单独的 Ridge 模型。异常值模型在所有数据上训练,而主模型仅使用正常情况。对于质量非常差的凌日,我在训练期间将其移除,并在推理时使用更大的 sigma 值。

Sigma 估计

对于不确定性估计,我使用了 Bootstrapping:创建多个重采样数据集,在每个数据集上训练模型,取所有模型预测的标准差,并乘以优化后的常数。这与按频率平均的交叉验证标准差线性结合。

小型消融实验

由于指标不稳定,结果可能会通过微小的特征和超参数调优得到改善。

方法 公共榜单分数 私有榜单分数
完整方案 60.9 61.2
无 SNR 加权平均 60.6 61.0
无斜率特征 52.6 54.1
无 Bootstrapping 46.3 57.6
无次数优化 60.4 61.1
无物理特征 60.2 61.2
无百分位特征 57.5 57.2

在“无 Bootstrapping"中,我使用了验证集的 RMSE 估计,并将异常值乘以 5 以防止零分。在“无百分位特征”中,我只保留了平均凌日深度和中点凌日深度测量值。

结论

更多实现细节可在 Notebook 中找到。

同比赛其他方案