返回列表

45th place solution

670. NeurIPS - Ariel Data Challenge 2025 | ariel-data-challenge-2025

开始: 2025-06-26 结束: 2025-09-24 物理与天文 数据算法赛
第 45 名解决方案 - 2025 NeurIPS Ariel 数据挑战赛

2025 NeurIPS Ariel 数据挑战赛:系外行星凌日光谱学的混合方法

作者: Shapu (及合作者)

发布日期: 2025-09-25

竞赛排名: 第 45 名

团队 Leader: Oleg V. Ponomarev

我们感谢 2025 NeurIPS Ariel 数据挑战赛的组织和参与者创造了这一宝贵的科学竞赛。

执行摘要

Notebook: https://www.kaggle.com/code/devadevam/fork-of-fork-of-fork-of-fork-of-notebookfc5-e6859d

主要思路:

  • 将 sigma 估算为基础非 ML 模型的预测值与目标值 mu 之间的差异(请参阅 SafeMLCalibrator 类)
  • 通过量纲分析构建天体物理特征(add_interaction_features 函数)
  • 基于大气物理的特征:平衡温度建模、恒星辐射计算、瑞利散射斜率分析和分子吸收特征(add_atmospheric_physics_features 函数)

核心方法论

我们的解决方案架构采用多层方法,结合了:

  • 基础层:提供物理动机基线预测的分析凌日建模
  • 增强层:用于系统偏差校正和预测细化的机器学习校准
  • 特征层:结合恒星和大气物理的物理信息工程
  • 验证层:具有适当统计校准的稳健不确定性量化

新思路优先:

特征工程

时间和光谱特征

我们从预处理的时间序列中提取全面的统计描述符:

统计矩:完整表征,包括集中趋势、离散度量、不对称性(偏度)和尾部行为(峰度)

分布特征:多百分位分析(第 5、25、50、75、95 百分位)和均方根计算

时间相关性:多个滞后间隔的自相关函数分析,用于时域模式识别

频域分析:快速傅里叶变换分解,能量划分到低、中、高频带,频谱质心计算和过零率分析

天体物理特征工程

我们结合了源自基本恒星和行星物理的特定领域特征:

轨道力学:撞击参数计算、轨道速度估计、平均运动推导和开普勒质量 - 半径关系

大气物理:平衡温度建模、恒星辐射计算、瑞利散射斜率分析和分子吸收特征(H₂O, CO₂, CO, CH₄)

交叉参数交互:系统构建的交互项、尺度不变性的对数变换和轨道几何的三角映射

光谱分析特征

借鉴成熟的大气检索方法:

  • 光谱建模:黑体相关性分析和连续谱表征
  • 形态分析:光谱斜率、曲率测量和吸收特征检测
  • 一致性指标:跨波长通道的传输光谱一致性分析

多尺度和质量指标

  • 层次分析:跨多个平滑尺度(3、7、15、31 个数据点)的特征计算
  • 信号质量:凌日信噪比量化和 V 形形态评估
  • 数据完整性:完整性评分和质量保证指标

机器学习增强框架

安全 ML 校准器设计

我们的主要方法学贡献集中在保守的机器学习集成:

尺度校准模块

  • 线性回归框架:depth_calibrated = α + β × depth_analytical
  • 严格的折外交叉验证防止信息泄露

光谱形状校准

  • 归一化传输光谱的主成分分析
  • 使用岭回归方法对主成分进行正则化回归
  • 完整的光谱重构与不确定性传播

不确定性校准系统

  • 用于 FGS 和 AIRS 不确定性估算的特定仪器岭回归模型
  • 对数空间中的几何混合以确保数值稳定性
  • 积分时间加权用于观测质量评估

统计正则化

  • 特征策划:系统移除常量和近常量预测变量
  • 多重共线性管理:基于相关性的修剪,阈值 τ = 0.95
  • 选择方法:基于排列重要性的特征排名
  • 保守混合:严格约束的组合权重(α ≤ 0.3, β ≤ 0.3, γ = 0.55)

质量感知训练协议

我们实施复杂的质量评估以优化训练样本加权:

  • 畸形检测:自动识别损坏的凌日信号
  • 信噪比量化:全面的基于 SNR 的评分方法
  • 自适应交叉验证:质量加权折叠构建用于稳健模型评估

不确定性量化

Sigma 估算为基础模型对 mu 的估计值与目标值之间的差异。

基线不确定性建模

FGS 光度不确定性

  • 凌日内与凌日外方差估计,采用稳健统计措施
  • 数据集范围的中值缩放,带有保守裁剪界限

AIRS 光谱不确定性

  • 考虑探测器特性的波长依赖方差建模
  • 积分时间归一化,带有保守缩放因子

不确定性估算

  • 预测建模:对工程不确定性特征进行岭回归
  • 稳健组合:与基线不确定性估计的几何混合
  • 特定行星校准:最佳不确定性乘数 (c*) 确定
  • 物理约束:确保现实不确定性_profile_的光谱平滑度要求

模型训练与验证

交叉验证架构

  • 分层策略:8 折交叉验证,具有质量感知分层
  • 样本加权:训练期间基于质量的重要性加权
  • 无偏评估:严格的折外预测协议
  • 独立验证:保留训练数据进行保留测试

超参数优化

  • 正则化策略:保守岭惩罚(α = 0.5-1.0)防止过拟合
  • 维度控制:有限的主成分保留(2-4 个成分)
  • 安全约束:最大混合权重 capped 为 0.3 以保持方法保守性

数据处理流水线

这部分主要取自此公共代码:https://www.kaggle.com/code/antonsibilev/very-fast-1h-optimized-nb-with-0-333

仪器校准

AIRS-CH0 光谱数据:

  • 应用特定仪器的线性校正系数以减轻系统偏移
  • 实施相关双采样 (CDS) 以抑制读出噪声
  • 执行波长依赖的平场校正,包括热像素识别和掩蔽
  • 执行稳健统计分箱,采用迭代 sigma 裁剪进行异常值拒绝
  • 应用自适应平滑算法,具有相位感知处理,以在减少噪声的同时保留凌日信号

FGS1 光度数据:

  • 针对单通道探测器特性优化 CDS 处理
  • 在探测器阵列上实施空间分箱以提高信噪比
  • 建立全面的质量保证协议以验证数据完整性

凌日信号处理

  • 降噪:Savitzky-Golay 滤波,优化窗口大小和多项式阶数
  • 特征检测:分段多项式拟合算法用于精确的入凌/出凌识别
  • 相位感知处理:自适应凌日掩蔽,保留天体物理信号
  • 质量评估:用于识别低信噪比或畸形凌日的多指标评估系统

分析凌日建模框架

数学公式

一个扩展的凌日模型,捕捉行星掩食的基本物理原理:

F(t) = F₀(t) × [1 - δ × T(t)]

其中:

  • F₀(t) 代表通过多项式去趋势建模的恒星通量连续谱
  • δ 量化波长依赖的凌日深度
  • T(t) 描述归一化的凌日光曲线 profile

优化策略

  • 参数估计:Nelder-Mead 单纯形优化,具有稳健收敛标准
  • 约束管理:Delta 边际约束防止边界效应并确保物理有效性
  • 相位分析:基于梯度的算法用于精确的凌日时间确定
  • 系统校正:三阶多项式去趋势,用于去除仪器和恒星变异性
同比赛其他方案