第 33 名解决方案 - CNN 集成与数据增强

第 33 名解决方案

副标题：带有数据增强的 CNN 集成

作者：D. DiMonte

发布日期：2025 年 9 月 26 日

竞赛排名：33

数据探索

本笔记本提供了对数据格式的详细探索，并应用了从分箱与处理笔记本借用的处理步骤。本笔记本的主要更改包括最小化时间分箱（仅足以标准化 AIRS-CH0 和 FGS1 长度）、更新的掩码行为、添加缺失数据填补以及广泛的前后可视化。

在本笔记本中，我们拟合了一个多项式基线到每条光变曲线的凌日外区域，使用平滑和变点检测来识别凌日开始和结束。然而，我们发现数据集中的某些凌日不完整或包含一些复杂的背景变化，使得基线归一化在所有情况下都不可靠，除非进行更仔细的考虑。为了解决这个问题，我们曾短暂尝试将 BATMAN 凌日模型拟合到数据中，但最终由于时间限制和需要稳健验证而决定不再进一步 pursued。

随后，我们调查了提供的真实凌日深度与光变曲线中最大观测凌日深度之间的比率。我们发现真实值并不总是在光变曲线的最小值处，也不总是拟合模型的固定分数，对于某些行星甚至可能低于观测最小值。这表明除了光变曲线中可见的凌日深度外，其他参数（如行星和恒星数据或凌日曲线的形状）在确定真实凌日深度方面起着重要作用。这可能是由于凌日特征和临边昏暗造成的。

数据探索图示

预处理

本笔记本包含最终提交代码，其中包含测试数据的所有必要预处理。大部分代码取自分箱与处理笔记本。我们还使用了 ruptures 库的代码。
预处理步骤：

加载和校准探测器信号
加载校准文件并应用探测器清理
-- 掩码热/死像素：使用掩码图和暗文件替换不可用数据。
-- 非线性校正
-- 平场校正：使用加载的平场图校正像素间灵敏度变化。
-- 暗流减法：减去适当的暗电流背景。
-- 相关双采样
时间分箱（12 倍）以对齐 FGS1 时间维度。
数据填补：使用双调和填补填充剩余缺失或掩码区域，将时间视为通道。
空间求和：沿空间轴求和以产生白光变曲线，并准备适合模型的输入形状。
中值滤波核大小 101
下采样步长 10

模型（进行中）

- 损失函数（进行中）

数据增强（进行中）

为了提高模型泛化能力和鲁棒性并减少过拟合，我们在训练期间实施了几种数据增强技术：

时间翻转：每条光变曲线沿时间轴翻转，使模型接触正向和反向凌日场景。
可变下采样和偏移：我们使用了 8、9 或 10 的步长和多个随机偏移，模拟时间以不同速度运行的效果，并产生具有不同采样密度的光变曲线。这种方法也增加了不完整凌日的表示，帮助模型学习处理边缘情况和不规则数据跨度。由于信号经过了中值滤波（核大小 101），偏移变化的增量效果适中，但仍引入了一些多样性。
添加线性趋势：对于每个波长通道，我们注入了一个随机线性信号，最大斜率设置为通道自身的范围。最大值按波长设置，但随机化是按行星观测进行的。
添加正弦趋势：对于每个波长通道，我们注入了一个低频随机正弦信号。
行星参数噪声：向输入模型的每组归一化行星参数添加了小的零均值高斯噪声 (σ = 0.1)。这减少了过拟合，并使网络对行星/恒星参数中的小误差或不确定性更具鲁棒性。

集成方法

为了聚合每个行星的模型预测，我们在提交笔记本中探索了几种集成方法。我们发现，由于我们预测值和 sigma 的方式，简单平均提供了最佳结果。每个行星都有来自（潜在）多次观测的预测、5 个不同的步长 10 偏移以及多个模型预测。我们尝试的方法：

简单平均：对每个行星的每个波长通道的所有预测进行简单平均，包括值和 sigma。
最佳 Sigma 选择：仅选择（每个行星）跨所有波长具有最低平均预测不确定度的单组预测。
最佳 N 平均：对每个行星具有最低平均 sigma 值的 N 行数据进行简单平均。
加权平均：按其预测不确定度的倒数加权每个预测，计算每个波长的加权均值和相关不确定度。

其他说明：

分层

我们探索了基于恒星和行星特征的分层 [笔记本]，希望创建能更好代表不同子类或难度级别的折。然而，缺乏强烈的自然聚类、特征与预测误差之间的相关性弱以及分布重叠表明，对于我们分析的特征，数据中不存在有意义的层次。因此，使用了简单随机折。

其他模型

33rd place solution