第 45 名解决方案 - 2025 NeurIPS Ariel 数据挑战赛

2025 NeurIPS Ariel 数据挑战赛：系外行星凌日光谱学的混合方法

作者: Shapu (及合作者)

发布日期: 2025-09-25

竞赛排名: 第 45 名

团队 Leader: Oleg V. Ponomarev

我们感谢 2025 NeurIPS Ariel 数据挑战赛的组织和参与者创造了这一宝贵的科学竞赛。

执行摘要

Notebook: https://www.kaggle.com/code/devadevam/fork-of-fork-of-fork-of-fork-of-notebookfc5-e6859d

主要思路：

将 sigma 估算为基础非 ML 模型的预测值与目标值 mu 之间的差异（请参阅 SafeMLCalibrator 类）
通过量纲分析构建天体物理特征（add_interaction_features 函数）
基于大气物理的特征：平衡温度建模、恒星辐射计算、瑞利散射斜率分析和分子吸收特征（add_atmospheric_physics_features 函数）

核心方法论

我们的解决方案架构采用多层方法，结合了：

基础层：提供物理动机基线预测的分析凌日建模
增强层：用于系统偏差校正和预测细化的机器学习校准
特征层：结合恒星和大气物理的物理信息工程
验证层：具有适当统计校准的稳健不确定性量化

新思路优先：

特征工程

时间和光谱特征

我们从预处理的时间序列中提取全面的统计描述符：

统计矩：完整表征，包括集中趋势、离散度量、不对称性（偏度）和尾部行为（峰度）

分布特征：多百分位分析（第 5、25、50、75、95 百分位）和均方根计算

时间相关性：多个滞后间隔的自相关函数分析，用于时域模式识别

频域分析：快速傅里叶变换分解，能量划分到低、中、高频带，频谱质心计算和过零率分析

天体物理特征工程

我们结合了源自基本恒星和行星物理的特定领域特征：

轨道力学：撞击参数计算、轨道速度估计、平均运动推导和开普勒质量 - 半径关系

大气物理：平衡温度建模、恒星辐射计算、瑞利散射斜率分析和分子吸收特征（H₂O, CO₂, CO, CH₄）

交叉参数交互：系统构建的交互项、尺度不变性的对数变换和轨道几何的三角映射

光谱分析特征

借鉴成熟的大气检索方法：

光谱建模：黑体相关性分析和连续谱表征
形态分析：光谱斜率、曲率测量和吸收特征检测
一致性指标：跨波长通道的传输光谱一致性分析

多尺度和质量指标

层次分析：跨多个平滑尺度（3、7、15、31 个数据点）的特征计算
信号质量：凌日信噪比量化和 V 形形态评估
数据完整性：完整性评分和质量保证指标

机器学习增强框架

安全 ML 校准器设计

我们的主要方法学贡献集中在保守的机器学习集成：

尺度校准模块：

线性回归框架：depth_calibrated = α + β × depth_analytical
严格的折外交叉验证防止信息泄露

光谱形状校准：

归一化传输光谱的主成分分析
使用岭回归方法对主成分进行正则化回归
完整的光谱重构与不确定性传播

不确定性校准系统：

用于 FGS 和 AIRS 不确定性估算的特定仪器岭回归模型
对数空间中的几何混合以确保数值稳定性
积分时间加权用于观测质量评估

统计正则化

特征策划：系统移除常量和近常量预测变量
多重共线性管理：基于相关性的修剪，阈值 τ = 0.95
选择方法：基于排列重要性的特征排名
保守混合：严格约束的组合权重（α ≤ 0.3, β ≤ 0.3, γ = 0.55）

质量感知训练协议

我们实施复杂的质量评估以优化训练样本加权：

畸形检测：自动识别损坏的凌日信号
信噪比量化：全面的基于 SNR 的评分方法
自适应交叉验证：质量加权折叠构建用于稳健模型评估

不确定性量化

Sigma 估算为基础模型对 mu 的估计值与目标值之间的差异。

基线不确定性建模

FGS 光度不确定性：

凌日内与凌日外方差估计，采用稳健统计措施
数据集范围的中值缩放，带有保守裁剪界限

AIRS 光谱不确定性：

考虑探测器特性的波长依赖方差建模
积分时间归一化，带有保守缩放因子

不确定性估算

预测建模：对工程不确定性特征进行岭回归
稳健组合：与基线不确定性估计的几何混合
特定行星校准：最佳不确定性乘数 (c*) 确定
物理约束：确保现实不确定性_profile_的光谱平滑度要求

模型训练与验证

交叉验证架构

分层策略：8 折交叉验证，具有质量感知分层
样本加权：训练期间基于质量的重要性加权
无偏评估：严格的折外预测协议
独立验证：保留训练数据进行保留测试

超参数优化

正则化策略：保守岭惩罚（α = 0.5-1.0）防止过拟合
维度控制：有限的主成分保留（2-4 个成分）
安全约束：最大混合权重 capped 为 0.3 以保持方法保守性

数据处理流水线

这部分主要取自此公共代码：https://www.kaggle.com/code/antonsibilev/very-fast-1h-optimized-nb-with-0-333

仪器校准

AIRS-CH0 光谱数据：

应用特定仪器的线性校正系数以减轻系统偏移
实施相关双采样 (CDS) 以抑制读出噪声
执行波长依赖的平场校正，包括热像素识别和掩蔽
执行稳健统计分箱，采用迭代 sigma 裁剪进行异常值拒绝
应用自适应平滑算法，具有相位感知处理，以在减少噪声的同时保留凌日信号

FGS1 光度数据：

针对单通道探测器特性优化 CDS 处理
在探测器阵列上实施空间分箱以提高信噪比
建立全面的质量保证协议以验证数据完整性

凌日信号处理

降噪：Savitzky-Golay 滤波，优化窗口大小和多项式阶数
特征检测：分段多项式拟合算法用于精确的入凌/出凌识别
相位感知处理：自适应凌日掩蔽，保留天体物理信号
质量评估：用于识别低信噪比或畸形凌日的多指标评估系统

分析凌日建模框架

数学公式

一个扩展的凌日模型，捕捉行星掩食的基本物理原理：

F(t) = F₀(t) × [1 - δ × T(t)]

其中：

F₀(t) 代表通过多项式去趋势建模的恒星通量连续谱
δ 量化波长依赖的凌日深度
T(t) 描述归一化的凌日光曲线 profile

优化策略

参数估计：Nelder-Mead 单纯形优化，具有稳健收敛标准
约束管理：Delta 边际约束防止边界效应并确保物理有效性
相位分析：基于梯度的算法用于精确的凌日时间确定
系统校正：三阶多项式去趋势，用于去除仪器和恒星变异性

合作者

Oleg V. Ponomarev Team Leader | devadevam

Andrey Volgarev Contributor | andreyvolgarev

Shapu Contributor | justforfun44

45th place solution