670. NeurIPS - Ariel Data Challenge 2025 | ariel-data-challenge-2025
副标题:带有数据增强的 CNN 集成
本笔记本提供了对数据格式的详细探索,并应用了从分箱与处理笔记本借用的处理步骤。本笔记本的主要更改包括最小化时间分箱(仅足以标准化 AIRS-CH0 和 FGS1 长度)、更新的掩码行为、添加缺失数据填补以及广泛的前后可视化。
在本笔记本中,我们拟合了一个多项式基线到每条光变曲线的凌日外区域,使用平滑和变点检测来识别凌日开始和结束。然而,我们发现数据集中的某些凌日不完整或包含一些复杂的背景变化,使得基线归一化在所有情况下都不可靠,除非进行更仔细的考虑。为了解决这个问题,我们曾短暂尝试将 BATMAN 凌日模型拟合到数据中,但最终由于时间限制和需要稳健验证而决定不再进一步 pursued。
随后,我们调查了提供的真实凌日深度与光变曲线中最大观测凌日深度之间的比率。我们发现真实值并不总是在光变曲线的最小值处,也不总是拟合模型的固定分数,对于某些行星甚至可能低于观测最小值。这表明除了光变曲线中可见的凌日深度外,其他参数(如行星和恒星数据或凌日曲线的形状)在确定真实凌日深度方面起着重要作用。这可能是由于凌日特征和临边昏暗造成的。

本笔记本包含最终提交代码,其中包含测试数据的所有必要预处理。大部分代码取自分箱与处理笔记本。我们还使用了 ruptures 库的代码。
预处理步骤:
- 损失函数(进行中)
为了提高模型泛化能力和鲁棒性并减少过拟合,我们在训练期间实施了几种数据增强技术:
时间翻转:每条光变曲线沿时间轴翻转,使模型接触正向和反向凌日场景。
可变下采样和偏移:我们使用了 8、9 或 10 的步长和多个随机偏移,模拟时间以不同速度运行的效果,并产生具有不同采样密度的光变曲线。这种方法也增加了不完整凌日的表示,帮助模型学习处理边缘情况和不规则数据跨度。由于信号经过了中值滤波(核大小 101),偏移变化的增量效果适中,但仍引入了一些多样性。
添加线性趋势:对于每个波长通道,我们注入了一个随机线性信号,最大斜率设置为通道自身的范围。最大值按波长设置,但随机化是按行星观测进行的。
添加正弦趋势:对于每个波长通道,我们注入了一个低频随机正弦信号。
行星参数噪声:向输入模型的每组归一化行星参数添加了小的零均值高斯噪声 (σ = 0.1)。这减少了过拟合,并使网络对行星/恒星参数中的小误差或不确定性更具鲁棒性。
为了聚合每个行星的模型预测,我们在提交笔记本中探索了几种集成方法。我们发现,由于我们预测值和 sigma 的方式,简单平均提供了最佳结果。每个行星都有来自(潜在)多次观测的预测、5 个不同的步长 10 偏移以及多个模型预测。我们尝试的方法:
分层
我们探索了基于恒星和行星特征的分层 [笔记本],希望创建能更好代表不同子类或难度级别的折。然而,缺乏强烈的自然聚类、特征与预测误差之间的相关性弱以及分布重叠表明,对于我们分析的特征,数据中不存在有意义的层次。因此,使用了简单随机折。
其他模型