44th Place Solution 🎉🎉🎉

第44名解决方案 🎉🎉🎉

作者： XIAO Dingwen | 比赛排名： 第44名

在进入正题之前，我想祝贺所有团队成员：@nanaxing、@focuswilliam、@zhangjinru、@marcocheung0124。他们中的前三人是本科生，而且都是Kaggle的新手。再次祝贺他们获得首枚奖牌，也祝贺我们在首次参加的音频竞赛中取得成功🥈🥈🥈！

然后，我要感谢 @takanashihumbert 发布的训练笔记本 Bengali SR wav2vec v1 Bengali Training。另一个感谢是给 @mbmmurad 的，感谢他在 Dataset overlaps with CommonVoice 11 bn 中介绍了数据集 mozilla-foundation/common_voice_11_0 的音频工作。

数据集

我们直接使用了组织者提供的数据，没有使用任何外部数据。

训练环境

我们使用了一个 Colab Pro+ 账户。由于设备和算力的限制，我们无法训练更多的模型（如标点符号模型）以及跑完完整的数据集。

数据增强

为了增加鲁棒性，我们使用了一些增强方法，如 HighLowPass（高低通滤波）、Noise（噪声）和 PitchShift（变调）。

模型训练

预训练模型来自 bengali-ex002。我们每次投入十分之一的数据进行训练（特征编码器和特征提取器轮流冻结）。在冻结特征提取器时，预热学习率为 2e-5。对于特征编码器，学习率为 6e-6。在我们的实验中，batch size（批大小）= 1。在训练了五分之三的数据后，Public Score（公开分数）为 0.42，Private Score（私有分数）为 0.503。

解码参数

我们调整了解码参数，并将其展示在笔记本 Bengali SR wav2vec v1 Bengali Inference for v4 中。

非常感谢大家的阅读。如果您有任何建议，我们很乐意接受。如果您能点赞本帖，我们将不胜感激🥺🥺🥺🙏🙏

第44名解决方案 🎉🎉🎉

数据集

训练环境

数据增强

模型训练

解码参数

同比赛其他方案