519. Feedback Prize - English Language Learning | feedback-prize-english-language-learning
我预料到会有巨大的排名变动,但没料到会以这种方式跃升!
这是我部分的解决方案。我在后期与 Dieter 组队,希望增加多样性会有所帮助。我也知道他不会过拟合公共 LB(Leaderboard),这使得组队毫无风险。当我们拥有像这样的小数据时,过拟合始终是一个危险。最终的排名变动不幸证明了这确实是一个真正的风险。
事实证明,Dieter 的模型与我的模型截然不同,主要是因为他在解决方案中使用了基于嵌入的 SVR(支持向量回归),而我没有。
鉴于我忙于 Kaggle 之外的其他比赛(先是 MICCAI,然后是 NEURIPS),我没有太多时间投入到这次比赛中。因此我采用了众所周知的技术。我的解决方案主要是伪标签 + 知识蒸馏。开发过程相当快,两个月前有一个为期两周的阶段,那时我根据公共 LB 分数集成模型(别那样做!),然后在比赛的最后一周,我使用 CV(交叉验证)来指导我的工作。对我们来说,基于 CV 的集成仅在比赛最后一天击败了临时集成!这使得提交选择变得容易:我们最好的 CV 就是最好的公共 LB,结果也是最好的私有 LB。
除了标准基线之外,这是我所做的工作:
这就是我在有限时间内所能做的一切。Dieter 在这次比赛中花的时间甚至比我还要少。考虑到我们在公共 LB 上大约排第 700 名,我们对最终出奇好的结果感到满意。组队也很棒,因为如果我单打独斗,我将是第 36 名。