498. Foursquare - Location Matching | foursquare-location-matching
非常感谢主办方组织了这场有趣而激烈的比赛,同时也感谢我的队友们:@no9more9ria10、@tomyanabe、@tkm2261、@yukia18。
这是 LB 0.949(含泄露 LB 0.971)第二名解决方案的一部分。
简要总结
其他部分:
利用上一阶段生成的候选匹配项,我们集成了三个模型:GBDT (XGBoost, lightGBM) 和 BERT (xlm-roberta-base)。
对于这种 ID 对(例如 src_id, dst_id),GBDT 主要使用编辑距离特征,而 BERT 使用特定列创建的文本。这些模型用于判断该 ID 对是否匹配。
XGBoost 的特征由 colum2131 (@columbia2131) 创建,lightGBM 的特征由 ria (@no9more9ria10) 创建。
虽然每个特征有一些差异,但 XGBoost 的特征如下所示:
训练数据的交叉验证特意进行了分割以产生泄露。
具体来说,我们没有使用 GroupKFold(n_splits=2, group=‘point_of_interest’) 的折叠方式,而是使用 GroupKFold(n_splits=5, group=‘src_id’) 创建了新的折叠。
这种泄露提高了 CV 和 Public LB,因为训练数据和测试数据包含共同的记录。
我们推测纬度和经度变量以及序数类别