返回列表

2nd Place Solution (Overall)

435. Indoor Location & Navigation | indoor-location-navigation

开始: 2021-01-28 结束: 2021-05-17 共享出行与停车 数据算法赛
第二名方案(总览)

第二名方案(总览)

作者: mamas (Kaggle Grandmaster)
比赛: Indoor Location Navigation

感谢我才华横溢的队友们( @ymatioun, @vaghefi, @demonen, @rsakata ),所有与我们竞争的团队,以及所有参与本次比赛的人。祝贺 @tvdwiele@areehdot@dott1718,他们以惊人的表现赢得了比赛!

我很高兴,因为我终于凭借5枚金牌成为了 Kaggle Grandmaster(特级大师),而 @ymatioun 也在这次比赛中成为了 Kaggle Master(大师)。这是我参加的第5场比赛,能与我过去的队友( @vicensgaitan )以及我在过去比赛中遇到的选手( @takoihiraokazu )同场竞技真是太有趣了!

在这里,我将解释我们团队方案的整体思路。关于(特别是)绝对位置预测模型和增量预测模型的更多细节,请查看我们队友的方案。

代码和我们预测的可视化在这里。

  • 离散优化代码(简单版): 链接
  • 我们团队的验证/测试预测结果(Public 1.41, Private 2.18): 链接

关于我们的方案,我们的团队没有使用任何数据泄露(例如起点/终点泄露、原始时间戳泄露、设备泄露)。我们尝试过使用这些泄露,但没有一个能提高分数,有时甚至会降低分数,因为我们的楼层模型和 WIFI 模型在没有泄露的情况下已经非常出色了。

验证集构建

通过 EDA(探索性数据分析),我发现测试集的样本满足以下条件:

  1. 没有使用非标准楼层,如评估部分所述。
  2. 品牌始终是 OPPO。
  3. max(timestamp) - min(timestamp) 大于 60310。
  4. TYPE_ACCELEROMETER_acc 不全为 nan。
  5. TYPE_ACCELEROMETER_UNCALIBRATED_acc 不全为 nan。
  6. TYPE_GYROSCOPE_UNCALIBRATED_acc 不全为 nan。
  7. TYPE_WIFI_ssid 不全为 nan。

我制作了这7个掩码并将它们相乘得到一个掩码。我使用这个掩码从训练集中选择了样本。然后,从这些样本中,我选择了548条路径,并将这548条路径作为验证集。使用这个验证集,LB(排行榜)和 CV(交叉验证)始终是相关的。我猜测主办方希望使用良好且干净的路径来评估性能,这是合理的。

绝对/增量预测模型

我们有5个绝对位置预测模型和3个增量预测模型。
这些是我们绝对位置预测模型的列表:

  • Reza 的 WKNN 模型(欧几里得距离)
  • Reza 的 WKNN 模型(相关距离)
  • Jack 的楼层级多分类模型
同比赛其他方案