8th place solution

第 8 名解决方案

作者: Ruby (MASTER)
竞赛排名: 8
发布时间: 2024-11-01

感谢 Kaggle 和竞赛主办方举办这场有趣的竞赛，特别感谢 sergeifironov 提供的优秀入门笔记本，我基本上遵循了相同的方法并添加了一些细节。

数据处理

transit_depth=(oot-it)/oot, transit_depth 是线性方程中 oot 项前的系数，所以这可以直接通过 OLS 求解
拟合所有波长的平均值
先通过分位数回归拟合，移除残差大的点，然后通过 OLS 拟合。相同的点也会在模型 2 中被移除，无需再次运行分位数回归。这使得模型对不清晰的相位边缘具有鲁棒性。

对模型 2 系数应用 SVD 以获得前 k 个主成分（3/4 对训练/测试集最佳，因为测试分子是训练集合的超集），然后通过带有协方差收缩的 GLS 重构系数，模型 2 的协方差基于 OLS 进行转换，因为简单的 GLS 协方差似乎低估了实际方差。
base_coef=0.6*coef1+0.4*coef2
base_coef*mean(coef2)/mean(coef1) 以处理由波长间能量分布不平衡引起的偏差
当 coef1 和 coef2 之间存在显著差异时，用 coef2 替换 base_coef，这是在行星 - 波长级别和行星级别完成的。
base_coef 的 sigma: max(|coef1-coef2|, coef_std2) 想象我们从偏差较小的模型 2“观察”偏差较大的模型 1。coef1 的 Sigma 由全局 coef1 和 coef2 之间的平均差距界定，这在准确的 coef2 估计不可行时有效
coef2 的 sigma: (2*coef_std+max coef gap between nearing wavelength), 因为模型 2 仍然存在偏差且数据中存在未知偏差。我基于一些启发式规则扩展了 coef_std2
我添加了一些规则来捕捉模型可能失败的情况，并替换为默认结果，但似乎它们在训练集和公共测试集上从未生效，不确定它在私有部分是否生效。

作者主页：Ruby 点击访问 Kaggle 个人主页