返回列表

5th place solution with code

546. Google - Isolated Sign Language Recognition | asl-signs

开始: 2023-02-23 结束: 2023-05-01 音视频处理 数据算法赛

第五名解决方案(含代码)

作者:yuanzhe zhou(Grandmaster)
发布日期:2023年5月2日

以下是第五名解决方案的简要概述:

  1. 我们应用了各种数据增强方法,如翻转、拼接等
    1.1 通过应用不同的数据增强,我们的交叉验证得分提高了约0.02(从0.76提升到0.78)

  2. 模型仅是基于公开内核的Transformer模型
    2.1 通过增加参数数量,单个模型在公开排行榜上的性能可以提升到约0.8(0.78→0.8)
    2.1.1 3层Transformer结构,嵌入大小为480

  3. 使用单个手语序列的均值和标准差进行预处理
    3.1 预处理方法确实会影响最终性能
    3.1.1 我们尝试了不同的均值和标准差计算方法,发现使用单个手语序列的均值和标准差能得到更好的交叉验证结果

  4. 特征工程,如点与点之间的距离
    4.1 我们选择了大约106个点(如Heck的公开笔记本中所用)
    4.2 计算了手部/鼻子/眼睛等点之间的距离

  5. 一些防止过拟合的方法,如AWP、随机屏蔽帧、EMA等

非常感谢我的队友 @qiaoshiji @zengzhaoyang

同比赛其他方案