546. Google - Isolated Sign Language Recognition | asl-signs
解决方案最重要的部分是数据利用。主要改进来自关键点选择和mixup(数据混合)。外部数据没有帮助,因为其分布差异很大。给定的数据量无法支持更大的模型,因此小模型集成是充分利用给定约束的最佳方式。
大多数增强方法没有帮助,因为它们阻碍了模型学习真实数据分布。因此只使用了镜像和mixup(0.5)。
所有模型都训练为支持最多512帧的序列。
LLaMa启发的架构。最显著改进来自更好的归一化RMSNorm
所有模型的头部维度设为64
单个模型(Private/Public LB: 0.8543689/0.7702471)
6头5层 920万参数
3模型集成(Private/Public LB: 0.8584568/0.7725324)
每模型:2头6层 170万参数
更大的模型可适应文件大小限制,但提交时会超时。