Reflections from 36th place

第36名心得体会

作者：John Mitchell
原文发布日期：2021年5月18日

几周前我写道：“让我感到惊讶的是，Kaggle社区已经有效地解决了这个问题——我们现在可以将多层建筑中的手机定位在约3.65米的精度范围内。感谢所有为此做出贡献的人！” 嗯，现在的精度已经达到了1.5米，我对大家集体的智慧比那时更加印象深刻。

我很早就参与了这场比赛，早到我的第一次提交得分还是14.845。每段旅程都需要一个起点，所以非常感谢那些提供早期公开模型的人，特别是 @ammarali32、@devinanzelmo、@hiro5299834 和 @jiweiliu。

我开始旅程时专注于预测楼层，我认为这是最容易取得进展的方面。早期的模型经常预测同一路径中的航点位于不同楼层，这也许是衡量不确定性的一个有用指标。在早期，将我对楼层预测的最佳猜测插入到当时的任何公开模型中，都会显著提高分数。不仅如此，我还体验了冲到第四名的乐趣，就像马拉松选手在第一英里冲刺到最前面一样，虽然很短暂。

事实上，我在2月17日就确定了我的最终楼层模型，随后的经验表明它至少在很大程度上是正确的。在保持领先最佳公开提交的游戏中，下一个技巧是注意到现有提交中的整体偏差，有几周的时间，只需将几乎任何公开预测的xy坐标移动约(+0.10, -0.50)就能提高其得分。

@wineplanetary 和 @yamsam 发布的两个笔记本特别有帮助，它们指出预测应该位于商场的走廊或过道区域，而不是商店或外面的停车场，并且可以使用地图将其可视化。如果不是 @robikscube、@mehrankazeminia、@somayyehgholami 和 @dragonzhang 提供的精彩的“吸附到网格”笔记本，实际做这项工作将会非常费力。这些笔记本被我感激地复刻了。正如 @robikscube 在论坛其他地方所说：“这场比赛不是关于预测精确的x,y坐标——而是关于预测旅行到了哪个预定义位置。正如已经提到的，在80%-90%的测试集中，我们已经知道了这些预定义位置。”

“吸附到网格”笔记本得到了其他公开后处理代码的补充，包括成本最小化和所谓的“泄漏”。关于后者，预测中应在多大程度上尊重“时间之箭”是一个激烈争论的话题。我的观点是，如果“手机两分钟前在哪里”仍然是一个相关的问题，那么我不太介意利用未来信息来增进我们对过去的理解。所以也要感谢 @aristotelisch、@iwatatakuya、@tomooinubushi 和 @saitodevel01 提供的后处理笔记本，这些对我将精度从约6米降低到约4米至关重要。

“吸附到网格”笔记本旨在吸附多个提交的混合结果。虽然改变这一点微不足道，但实际上我发现混合我认为的“遗传多样性”——即混合来自不同起源的模型——很有帮助。虽然集成的稳健性仍是一个争论的话题，但我发现引入这种多样性通常提高了我的分数，多轮迭代后处理使我比最佳公开内核领先约0.4米——尽管有几周我似乎完全卡住了，无法取得更多进展。最后的改进出现在最后两个小时，通过以不同的顺序进行后处理。

鉴于关于排名震荡的讨论如此之多，最终提交的选择将非常重要。我做了一件我认为显而易见的事，在我的楼层模型和其他最受欢迎的模型之间对冲这两个条目。我预计比任何两个提交都选择另一种模型的人获得约0.35的优势。最终，在震荡中上升27名超出了我的预期，虽然我并不惊讶能悄悄回到银牌区，但如果在整个比赛中一直保持在前100名却最终跌出奖牌区，我会非常失望。事实上，我选择得更好的提交结果只是我的第二好私人分数，但这只让我损失了一个名次。

我还要感谢那些在论坛上参与了一些

第36名心得体会

同比赛其他方案