第 45 名解决方案 - 2025 NeurIPS Ariel 数据挑战赛
2025 NeurIPS Ariel 数据挑战赛:系外行星凌日光谱学的混合方法
我们感谢 2025 NeurIPS Ariel 数据挑战赛的组织和参与者创造了这一宝贵的科学竞赛。
执行摘要
Notebook: https://www.kaggle.com/code/devadevam/fork-of-fork-of-fork-of-fork-of-notebookfc5-e6859d
主要思路:
- 将 sigma 估算为基础非 ML 模型的预测值与目标值 mu 之间的差异(请参阅
SafeMLCalibrator 类)
- 通过量纲分析构建天体物理特征(
add_interaction_features 函数)
- 基于大气物理的特征:平衡温度建模、恒星辐射计算、瑞利散射斜率分析和分子吸收特征(
add_atmospheric_physics_features 函数)
核心方法论
我们的解决方案架构采用多层方法,结合了:
- 基础层:提供物理动机基线预测的分析凌日建模
- 增强层:用于系统偏差校正和预测细化的机器学习校准
- 特征层:结合恒星和大气物理的物理信息工程
- 验证层:具有适当统计校准的稳健不确定性量化
新思路优先:
特征工程
时间和光谱特征
我们从预处理的时间序列中提取全面的统计描述符:
统计矩:完整表征,包括集中趋势、离散度量、不对称性(偏度)和尾部行为(峰度)
分布特征:多百分位分析(第 5、25、50、75、95 百分位)和均方根计算
时间相关性:多个滞后间隔的自相关函数分析,用于时域模式识别
频域分析:快速傅里叶变换分解,能量划分到低、中、高频带,频谱质心计算和过零率分析
天体物理特征工程
我们结合了源自基本恒星和行星物理的特定领域特征:
轨道力学:撞击参数计算、轨道速度估计、平均运动推导和开普勒质量 - 半径关系
大气物理:平衡温度建模、恒星辐射计算、瑞利散射斜率分析和分子吸收特征(H₂O, CO₂, CO, CH₄)
交叉参数交互:系统构建的交互项、尺度不变性的对数变换和轨道几何的三角映射
光谱分析特征
借鉴成熟的大气检索方法:
- 光谱建模:黑体相关性分析和连续谱表征
- 形态分析:光谱斜率、曲率测量和吸收特征检测
- 一致性指标:跨波长通道的传输光谱一致性分析
多尺度和质量指标
- 层次分析:跨多个平滑尺度(3、7、15、31 个数据点)的特征计算
- 信号质量:凌日信噪比量化和 V 形形态评估
- 数据完整性:完整性评分和质量保证指标
机器学习增强框架
安全 ML 校准器设计
我们的主要方法学贡献集中在保守的机器学习集成:
尺度校准模块:
- 线性回归框架:
depth_calibrated = α + β × depth_analytical
- 严格的折外交叉验证防止信息泄露
光谱形状校准:
- 归一化传输光谱的主成分分析
- 使用岭回归方法对主成分进行正则化回归
- 完整的光谱重构与不确定性传播
不确定性校准系统:
- 用于 FGS 和 AIRS 不确定性估算的特定仪器岭回归模型
- 对数空间中的几何混合以确保数值稳定性
- 积分时间加权用于观测质量评估
统计正则化
- 特征策划:系统移除常量和近常量预测变量
- 多重共线性管理:基于相关性的修剪,阈值 τ = 0.95
- 选择方法:基于排列重要性的特征排名
- 保守混合:严格约束的组合权重(α ≤ 0.3, β ≤ 0.3, γ = 0.55)
质量感知训练协议
我们实施复杂的质量评估以优化训练样本加权:
- 畸形检测:自动识别损坏的凌日信号
- 信噪比量化:全面的基于 SNR 的评分方法
- 自适应交叉验证:质量加权折叠构建用于稳健模型评估
不确定性量化
Sigma 估算为基础模型对 mu 的估计值与目标值之间的差异。
基线不确定性建模
FGS 光度不确定性:
- 凌日内与凌日外方差估计,采用稳健统计措施
- 数据集范围的中值缩放,带有保守裁剪界限
AIRS 光谱不确定性:
- 考虑探测器特性的波长依赖方差建模
- 积分时间归一化,带有保守缩放因子
不确定性估算
- 预测建模:对工程不确定性特征进行岭回归
- 稳健组合:与基线不确定性估计的几何混合
- 特定行星校准:最佳不确定性乘数 (c*) 确定
- 物理约束:确保现实不确定性_profile_的光谱平滑度要求
模型训练与验证
交叉验证架构
- 分层策略:8 折交叉验证,具有质量感知分层
- 样本加权:训练期间基于质量的重要性加权
- 无偏评估:严格的折外预测协议
- 独立验证:保留训练数据进行保留测试
超参数优化
- 正则化策略:保守岭惩罚(α = 0.5-1.0)防止过拟合
- 维度控制:有限的主成分保留(2-4 个成分)
- 安全约束:最大混合权重 capped 为 0.3 以保持方法保守性
数据处理流水线
这部分主要取自此公共代码:https://www.kaggle.com/code/antonsibilev/very-fast-1h-optimized-nb-with-0-333
仪器校准
AIRS-CH0 光谱数据:
- 应用特定仪器的线性校正系数以减轻系统偏移
- 实施相关双采样 (CDS) 以抑制读出噪声
- 执行波长依赖的平场校正,包括热像素识别和掩蔽
- 执行稳健统计分箱,采用迭代 sigma 裁剪进行异常值拒绝
- 应用自适应平滑算法,具有相位感知处理,以在减少噪声的同时保留凌日信号
FGS1 光度数据:
- 针对单通道探测器特性优化 CDS 处理
- 在探测器阵列上实施空间分箱以提高信噪比
- 建立全面的质量保证协议以验证数据完整性
凌日信号处理
- 降噪:Savitzky-Golay 滤波,优化窗口大小和多项式阶数
- 特征检测:分段多项式拟合算法用于精确的入凌/出凌识别
- 相位感知处理:自适应凌日掩蔽,保留天体物理信号
- 质量评估:用于识别低信噪比或畸形凌日的多指标评估系统
分析凌日建模框架
数学公式
一个扩展的凌日模型,捕捉行星掩食的基本物理原理:
F(t) = F₀(t) × [1 - δ × T(t)]
其中:
- F₀(t) 代表通过多项式去趋势建模的恒星通量连续谱
- δ 量化波长依赖的凌日深度
- T(t) 描述归一化的凌日光曲线 profile
优化策略
- 参数估计:Nelder-Mead 单纯形优化,具有稳健收敛标准
- 约束管理:Delta 边际约束防止边界效应并确保物理有效性
- 相位分析:基于梯度的算法用于精确的凌日时间确定
- 系统校正:三阶多项式去趋势,用于去除仪器和恒星变异性
合作者
Oleg V. Ponomarev
Team Leader | devadevam
Andrey Volgarev
Contributor | andreyvolgarev
Shapu
Contributor | justforfun44