432. Shopee - Price Match Guarantee | shopee-product-matching
图像 (img): eca_nfnet_l0 + eff_b5
文本 (txt): tfidf + bert(phrase multilang)
投票机制 -- 图像分数和文本分数平均 +0.11 (.739->.750)
对于每个产品,我们创建一个空数组(字典),并将 NN(最近邻)搜索的结果 1-cosine_nn_dist 添加到单元格中。对于 tfidf 使用 cosine_dist。通过文本和图像的模型数量进行归一化。
始终搜索配对 +0.05 (.734->.739)
使用自己的图像模型 +0.02。使用了不同的损失函数(r focal loss)。增加了更多的数据增强。
文本清洗 +0.01
如果后缀不匹配,在投票中减去 1。例如 gr, ml, pa。 +0.02
5.1. spf 类型前缀
5.2. 后缀的同义词(图1)。并创建数字-后缀的粘合对。
5.3. 检查后缀是否具有区分能力
后缀和前缀是从训练样本中收集的,所有与数字连写的文本序列,例如 30meter, spf50。
相似度链(图2) +0.02
如果一个产品被以高准确率选中,那么我们会寻找一个与查询产品相似的产品以及一个新产品。
第一张 -- 查询图,绿色 -- 匹配,红色 -- 错误匹配,蓝色 -- 未找到/匹配

图1. 检查后缀,如 gr, ml, pa

图2. 相似度链。最后两张图片未找到,但图像与匹配的产品相似