第 9 名解决方案 - Arseny Poyda
第 9 名解决方案
首先,我要感谢主办方和 Kaggle 团队举办这次比赛。
数据预处理
- 信号校准与主办方的方案一致,除了省略了分箱(binning)和热像素(hot-pixels)处理。
- 信号分割基于一次和二次导数,类似于第 3 名解决方案。
光谱(μ 和 σ)预测
预测过程可分为 3 部分:
- 不同波长块的 μ 粗略估计;
- σ 估计;
- 基于 σ 的 μ 细化。
μ 的粗略估计
- μ 估计为凌日(transit)期间信号的相对下降。我使用了两种方法来计算 μ。第一种是 @sergeifironov 提出的多项式拟合方法的稍改版本。第二种方法是取下降区域周围信号之间的差值,并除以较高的那个。由于信号可能包含低频趋势,因此仅考虑小区域很重要(使用了 90 个时间戳)。最终的 μ 是这两种方法的加权组合。
- 平均 μ_1 的估计是在整个 282 个波长上计算的(1 个大块)。单个波长的 μ_47 估计是通过将波长分为 47 个块获得的(每个块包含 6 个像素)。
- 在这两种情况下,信号都通过巴特沃斯(Butterworth)滤波器随时间过滤。此外,在 47 个块的情况下,信号还通过汉宁窗(Hann window,1D 卷积)在波长上进行过滤。
σ 估计
- 该方法非常简单。计算 μ_4(4 个块的 4 个 μ,每个块约 70 个像素),只需取这 4 个值的标准差:σ = μ_4.std()。
μ 的细化
- 尽管进行了波长过滤,μ_47 仍然存在极端偏差。因此必须再次过滤获得的 μ。
- μ 的最终预测是平均 μ_1(1 个大块)和 μ_47(47 个块)的加权组合。重要的发现是,TRUE σ 越大,μ_47 越接近 TRUE μ。因此,μ_47 的权重 w_47 随估计的 σ 单调增长。
在这次讨论中,我只提到了主要细节,省略了许多小特征。