第13名解决方案

作者：SiNpcw（Kaggle Master级选手）
发布时间：2023年4月28日
排名：IceCube中微子竞赛第13名

首先感谢主办方，也向所有参赛者表示祝贺。我很遗憾未能保持在金牌段位，但获得了宝贵的学习经验。我想借此机会表达我的感激之情。虽然时间有些晚了，但我仍想分享我的解决方案。我的英语水平有限，如有不清楚之处欢迎随时询问。

我的解决方案包括：

我曾尝试训练LSTM和Transformer模型，但效果不理想，所以过早放弃了这些方案，这是导致我失利的主要原因。

最终提交时，我使用了8个GraphNet模型的集成。单个图模型在Public榜获得0.982分，Private榜获得0.984分。因此，集成带来的提升可能并不显著。

训练数据的噪声过滤

我认为当事件内观测信号较少时，数据难以拟合且容易导致过拟合。因此我实施了以下循环流程：

上述过程重复了2-3次。

这个想法源于我在PANDA竞赛中处理噪声标签导致过拟合的经验。我认为本次竞赛涉及物理现象，在理想观测数据下预测相对容易。因此，包含噪声数据的训练模型也无法准确预测测试数据中的困难事件。事实上，使用去噪数据训练的模型提升了CV分数，Public LB分数也随之提高，证明该方法有效。

我在主办方提供的模型基础上进行了改进：

推理代码笔记本 https://www.kaggle.com/code/sinpcw/icecube-submit （版本111获得最佳LB分数）