8Th place solution

第8名解决方案

作者：Arnaud Roussel | 团队：ChienYiChi | 发布时间：2020-07-23

尽管有一些随机性的证据，我还是想分享一下我们使用的思路：

基于本地CV（交叉验证）和不错的LB（排行榜）分数的10模型融合。
模型之间使用不同的预测方式（回归、分箱和有序回归）。
部分模型使用了图块包，其他的则将图块堆叠成方块。
使用了EfficientNets（我只训练了b0，但队友训练了几个b4）。
我的模型分两步训练。首先制作一个带有注意力层的模型（我曾在某个帖子中分享过）。然后复用这个注意力层和模型来预测图块的权重。接着用较少数量的图块（9或16个）重新训练模型。我有一些9图块的模型，它们既快又能达到0.90+的CV分数。此外，这允许我们在推理过程中检查大量的图块（128个），然后只选择最好的9个或16个。
我的队友在他的模型中使用了NetVlad层，也许他会在本帖中谈论这一点。
对于LB，采用“均值+取整”的融合方式优于多数投票（这也是我们当时采用的），但实际上我们最好的解决方案使用的是多数投票（我们当时没选这个）。
我们还建立了一个不包含重复项和“可疑切片”的CV集。

在最后几周，组建团队后，鉴于明显的榜单大动荡迹象，我开始不信任LB，并尝试为集成模型引入多样性。只要模型的LB分数大于0.88，且CV分数在最佳之列，那就足够好了。

在这次比赛中学到了很多。感谢组织者。

注：我们还有一个得分为0.936的解决方案，但我们没有选择它 :(

第8名解决方案