第8名解决方案
第8名解决方案
作者:Arnaud Roussel | 团队:ChienYiChi | 发布时间:2020-07-23
尽管有一些随机性的证据,我还是想分享一下我们使用的思路:
- 基于本地CV(交叉验证)和不错的LB(排行榜)分数的10模型融合。
- 模型之间使用不同的预测方式(回归、分箱和有序回归)。
- 部分模型使用了图块包,其他的则将图块堆叠成方块。
- 使用了EfficientNets(我只训练了b0,但队友训练了几个b4)。
- 我的模型分两步训练。首先制作一个带有注意力层的模型(我曾在某个帖子中分享过)。然后复用这个注意力层和模型来预测图块的权重。接着用较少数量的图块(9或16个)重新训练模型。我有一些9图块的模型,它们既快又能达到0.90+的CV分数。此外,这允许我们在推理过程中检查大量的图块(128个),然后只选择最好的9个或16个。
- 我的队友在他的模型中使用了NetVlad层,也许他会在本帖中谈论这一点。
- 对于LB,采用“均值+取整”的融合方式优于多数投票(这也是我们当时采用的),但实际上我们最好的解决方案使用的是多数投票(我们当时没选这个)。
- 我们还建立了一个不包含重复项和“可疑切片”的CV集。
在最后几周,组建团队后,鉴于明显的榜单大动荡迹象,我开始不信任LB,并尝试为集成模型引入多样性。只要模型的LB分数大于0.88,且CV分数在最佳之列,那就足够好了。
在这次比赛中学到了很多。感谢组织者。
注:我们还有一个得分为0.936的解决方案,但我们没有选择它 :(