2nd Place Solution (Overall)

第二名方案（总览）

作者： mamas (Kaggle Grandmaster)
比赛： Indoor Location Navigation

感谢我才华横溢的队友们（ @ymatioun, @vaghefi, @demonen, @rsakata ），所有与我们竞争的团队，以及所有参与本次比赛的人。祝贺 @tvdwiele、@areehdot、@dott1718，他们以惊人的表现赢得了比赛！

我很高兴，因为我终于凭借5枚金牌成为了 Kaggle Grandmaster（特级大师），而 @ymatioun 也在这次比赛中成为了 Kaggle Master（大师）。这是我参加的第5场比赛，能与我过去的队友（ @vicensgaitan ）以及我在过去比赛中遇到的选手（ @takoihiraokazu ）同场竞技真是太有趣了！

在这里，我将解释我们团队方案的整体思路。关于（特别是）绝对位置预测模型和增量预测模型的更多细节，请查看我们队友的方案。

Youri 的部分: 链接
Reza 的部分: 链接
Christoffer 的部分: 链接
Jack 的部分: 链接

代码和我们预测的可视化在这里。

离散优化代码（简单版）: 链接
我们团队的验证/测试预测结果（Public 1.41, Private 2.18）: 链接

关于我们的方案，我们的团队没有使用任何数据泄露（例如起点/终点泄露、原始时间戳泄露、设备泄露）。我们尝试过使用这些泄露，但没有一个能提高分数，有时甚至会降低分数，因为我们的楼层模型和 WIFI 模型在没有泄露的情况下已经非常出色了。

验证集构建

通过 EDA（探索性数据分析），我发现测试集的样本满足以下条件：

没有使用非标准楼层，如评估部分所述。
品牌始终是 OPPO。
max(timestamp) - min(timestamp) 大于 60310。
TYPE_ACCELEROMETER_acc 不全为 nan。
TYPE_ACCELEROMETER_UNCALIBRATED_acc 不全为 nan。
TYPE_GYROSCOPE_UNCALIBRATED_acc 不全为 nan。
TYPE_WIFI_ssid 不全为 nan。

我制作了这7个掩码并将它们相乘得到一个掩码。我使用这个掩码从训练集中选择了样本。然后，从这些样本中，我选择了548条路径，并将这548条路径作为验证集。使用这个验证集，LB（排行榜）和 CV（交叉验证）始终是相关的。我猜测主办方希望使用良好且干净的路径来评估性能，这是合理的。

绝对/增量预测模型

我们有5个绝对位置预测模型和3个增量预测模型。
这些是我们绝对位置预测模型的列表：

Reza 的 WKNN 模型（欧几里得距离）
Reza 的 WKNN 模型（相关距离）
Jack 的楼层级多分类模型

第二名方案（总览）

验证集构建

绝对/增量预测模型

同比赛其他方案