返回列表

[22nd] place solution: Only Wifi Models + Public Post Processing + Pseudo labels

435. Indoor Location & Navigation | indoor-location-navigation

开始: 2021-01-28 结束: 2021-05-17 共享出行与停车 数据算法赛
第22名方案:仅Wifi模型 + 公共后处理 + 伪标签

第22名方案:仅Wifi模型 + 公共后处理 + 伪标签

作者: Nischay Dhankhar | 排名: 第22名

我要感谢 Kaggle 主办了如此有趣的比赛,也要感谢我出色的队友 @shivamcyborg@dehokanta@shivammittal274@nooblife。同时,祝贺 Tom & dott 的团队再次获胜,也祝贺 @mamasinkgs 的团队在比赛的大部分时间里占据主导地位。

我想分享我们的方法,这对我们非常有效,帮助我们在排行榜上获得了不错的位置。

首先,我们所有的模型都是仅使用 Wifi 特征(BSSID 和 RSSI)通过多种方法训练而成的。我们找不到更好的方法将更多特征纳入模型,大多数特征在验证分数和排行榜上的表现都很差,因此我们决定完全依赖 Wifi 数据。

模型:

  1. Fastai / RNN: 这是我们最好的模型,在集成中权重最高。基线由 @nooblife 构建,我对它的性能感到非常惊讶。它表现更好的原因之一是生成每个位置最后 5 秒内的 wifi 数据,并将它们按顺序发送到我们的模型。通过更多的参数调整和稍微不同的架构,我们在没有任何后处理的情况下,单模型达到了 5.26 的分数。

  2. 站点级 RNN 训练: 我们还按站点训练了类似的 LSTM 模型。虽然其结果不如基于完整数据的 LSTM,但由于相关性低,它在集成中起到了很好的提升作用。

  3. MLP: 它在我们最终的模型集成中也表现不错,与 LSTM 模型合并时提供了轻微的提升。

我们没有任何后处理的模型集成在公共排行榜上的得分为 4.8-4.9

后处理

我们的最终解决方案完全基于公共后处理,并增加了一些额外的调整和技巧。虽然我们想出了一种绝妙的方法,通过后处理将本地和排行榜的分数提高 0.2-0.3,但这需要借助手工标记的航点。其背后的想法是在循环中进行后处理,对“吸附到网格”使用不同的阈值。如果允许使用手工标记的网格,我们可能会达到比现在好得多的位置,我希望目前的排名中没有团队在使用它。

经过后处理和优化成本最小化后的模型得分为:3.57

伪标签

其背后的想法很简单,因为一些航点在后处理后被改变了很大幅度,我们计划使用训练数据+测试数据重新训练我们的一些模型,以便为某些路径获得更好的预测。

在集成中加入伪标签模型后,我们的最终得分达到了:3.43,这使我们在私人排行榜上跃升至第 22 名。