[22nd] place solution: Only Wifi Models + Public Post Processing + Pseudo labels

第22名方案：仅Wifi模型 + 公共后处理 + 伪标签

作者： Nischay Dhankhar | 排名： 第22名

我要感谢 Kaggle 主办了如此有趣的比赛，也要感谢我出色的队友 @shivamcyborg、@dehokanta、@shivammittal274 和 @nooblife。同时，祝贺 Tom & dott 的团队再次获胜，也祝贺 @mamasinkgs 的团队在比赛的大部分时间里占据主导地位。

我想分享我们的方法，这对我们非常有效，帮助我们在排行榜上获得了不错的位置。

首先，我们所有的模型都是仅使用 Wifi 特征（BSSID 和 RSSI）通过多种方法训练而成的。我们找不到更好的方法将更多特征纳入模型，大多数特征在验证分数和排行榜上的表现都很差，因此我们决定完全依赖 Wifi 数据。

模型：

Fastai / RNN： 这是我们最好的模型，在集成中权重最高。基线由 @nooblife 构建，我对它的性能感到非常惊讶。它表现更好的原因之一是生成每个位置最后 5 秒内的 wifi 数据，并将它们按顺序发送到我们的模型。通过更多的参数调整和稍微不同的架构，我们在没有任何后处理的情况下，单模型达到了 5.26 的分数。
站点级 RNN 训练： 我们还按站点训练了类似的 LSTM 模型。虽然其结果不如基于完整数据的 LSTM，但由于相关性低，它在集成中起到了很好的提升作用。
MLP： 它在我们最终的模型集成中也表现不错，与 LSTM 模型合并时提供了轻微的提升。

我们没有任何后处理的模型集成在公共排行榜上的得分为 4.8-4.9。

后处理

我们的最终解决方案完全基于公共后处理，并增加了一些额外的调整和技巧。虽然我们想出了一种绝妙的方法，通过后处理将本地和排行榜的分数提高 0.2-0.3，但这需要借助手工标记的航点。其背后的想法是在循环中进行后处理，对“吸附到网格”使用不同的阈值。如果允许使用手工标记的网格，我们可能会达到比现在好得多的位置，我希望目前的排名中没有团队在使用它。

经过后处理和优化成本最小化后的模型得分为：3.57

伪标签

其背后的想法很简单，因为一些航点在后处理后被改变了很大幅度，我们计划使用训练数据+测试数据重新训练我们的一些模型，以便为某些路径获得更好的预测。

在集成中加入伪标签模型后，我们的最终得分达到了：3.43，这使我们在私人排行榜上跃升至第 22 名。

代码与参考链接

RNN 基线版本 https://www.kaggle.com/nooblife/indoor-location-rnn-v2 数据准备 https://www.kaggle.com/nooblife/indoor-location-rnn-data-v2 参考：LSTM by Keras with unified wi-fi feats 作者: @kokitanisaka 参考：Indoor Post Processing by Cost Minimization 作者: @saitodevel01 参考：Indoor Navigation Snap to Grid Post Processing 作者: @robikscube

同比赛其他方案

1st Place Solution - Track me if you can

2nd Place Solution (Overall)

3rd place solution

Delta x,y CNN + MLP network from 5th place solution

7th place solution