14th place solution: publicly shared Transformer architecture was so strong!

第14名解决方案：公开共享的Transformer架构如此强大！

作者：Bilzard (Kaggle Grandmaster)
竞赛排名：第14名
发布时间：2023年5月2日

总结

感谢Kaggle主办方组织这次竞赛。虽然处理TensorFlow的晦涩错误以及失败的TFLite转换尝试非常艰难，但这些底层经验对我而言十分宝贵。以下是我的竞赛解决方案总结。

我在本次竞赛中尝试了超过377种不同的模型训练模式，但最终最佳架构仅是在Mark Wijkhuizen的优秀公开笔记本基础上做了少量修改。

我测试了a) PostLN, b) PreLN, c) 混合架构三种方案，发现混合架构效果最佳。该架构最初（可能是无意的）在Mark Wijkhuizen的公开笔记本（早期版本）中实现。

损失函数： 0.5 * ArcFace + 0.5 * 交叉熵（该设置来自Med Ali Bouchhioua）。ArcFace与交叉熵损失结合使用能更快收敛，且准确率更高
测试了50、80、100、120个epoch，100个epoch在LB上表现最佳
标签平滑（0.20-0.25）可避免过拟合，但ArcFace效果更好。同时使用标签平滑和ArcFace并未提升CV/LB

增强策略基本与@hengck23分享的方案一致：

帧掩码模拟关键点检测失败的情况，同时在图像任务中起到cutout增强的作用。

当对Mark的原始实现应用FP16量化时，Transformer块会输出NaN值。因此我基于@henck23的实现重写了transformer块。FP16量化使模型大小减少约一半，且未损失准确率。