返回列表

Reflections from 36th place

435. Indoor Location & Navigation | indoor-location-navigation

开始: 2021-01-28 结束: 2021-05-17 共享出行与停车 数据算法赛
第36名心得体会

第36名心得体会

作者:John Mitchell
原文发布日期:2021年5月18日

几周前我写道:“让我感到惊讶的是,Kaggle社区已经有效地解决了这个问题——我们现在可以将多层建筑中的手机定位在约3.65米的精度范围内。感谢所有为此做出贡献的人!” 嗯,现在的精度已经达到了1.5米,我对大家集体的智慧比那时更加印象深刻。

我很早就参与了这场比赛,早到我的第一次提交得分还是14.845。每段旅程都需要一个起点,所以非常感谢那些提供早期公开模型的人,特别是 @ammarali32@devinanzelmo@hiro5299834@jiweiliu

我开始旅程时专注于预测楼层,我认为这是最容易取得进展的方面。早期的模型经常预测同一路径中的航点位于不同楼层,这也许是衡量不确定性的一个有用指标。在早期,将我对楼层预测的最佳猜测插入到当时的任何公开模型中,都会显著提高分数。不仅如此,我还体验了冲到第四名的乐趣,就像马拉松选手在第一英里冲刺到最前面一样,虽然很短暂。

事实上,我在2月17日就确定了我的最终楼层模型,随后的经验表明它至少在很大程度上是正确的。在保持领先最佳公开提交的游戏中,下一个技巧是注意到现有提交中的整体偏差,有几周的时间,只需将几乎任何公开预测的xy坐标移动约(+0.10, -0.50)就能提高其得分。

@wineplanetary@yamsam 发布的两个笔记本特别有帮助,它们指出预测应该位于商场的走廊或过道区域,而不是商店或外面的停车场,并且可以使用地图将其可视化。如果不是 @robikscube@mehrankazeminia@somayyehgholami@dragonzhang 提供的精彩的“吸附到网格”笔记本,实际做这项工作将会非常费力。这些笔记本被我感激地复刻了。正如 @robikscube 在论坛其他地方所说:“这场比赛不是关于预测精确的x,y坐标——而是关于预测旅行到了哪个预定义位置。正如已经提到的,在80%-90%的测试集中,我们已经知道了这些预定义位置。

“吸附到网格”笔记本得到了其他公开后处理代码的补充,包括成本最小化和所谓的“泄漏”。关于后者,预测中应在多大程度上尊重“时间之箭”是一个激烈争论的话题。我的观点是,如果“手机两分钟前在哪里”仍然是一个相关的问题,那么我不太介意利用未来信息来增进我们对过去的理解。所以也要感谢 @aristotelisch@iwatatakuya@tomooinubushi@saitodevel01 提供的后处理笔记本,这些对我将精度从约6米降低到约4米至关重要。

“吸附到网格”笔记本旨在吸附多个提交的混合结果。虽然改变这一点微不足道,但实际上我发现混合我认为的“遗传多样性”——即混合来自不同起源的模型——很有帮助。虽然集成的稳健性仍是一个争论的话题,但我发现引入这种多样性通常提高了我的分数,多轮迭代后处理使我比最佳公开内核领先约0.4米——尽管有几周我似乎完全卡住了,无法取得更多进展。最后的改进出现在最后两个小时,通过以不同的顺序进行后处理。

鉴于关于排名震荡的讨论如此之多,最终提交的选择将非常重要。我做了一件我认为显而易见的事,在我的楼层模型和其他最受欢迎的模型之间对冲这两个条目。我预计比任何两个提交都选择另一种模型的人获得约0.35的优势。最终,在震荡中上升27名超出了我的预期,虽然我并不惊讶能悄悄回到银牌区,但如果在整个比赛中一直保持在前100名却最终跌出奖牌区,我会非常失望。事实上,我选择得更好的提交结果只是我的第二好私人分数,但这只让我损失了一个名次。

我还要感谢那些在论坛上参与了一些

同比赛其他方案