返回列表

44th Place Solution 🎉🎉🎉

576. Bengali.AI Speech Recognition | bengaliai-speech

开始: 2023-07-17 结束: 2023-10-17 音视频处理 数据算法赛
第44名解决方案 🎉🎉🎉

第44名解决方案 🎉🎉🎉

作者: XIAO Dingwen | 比赛排名: 第44名

在进入正题之前,我想祝贺所有团队成员:@nanaxing@focuswilliam@zhangjinru@marcocheung0124。他们中的前三人是本科生,而且都是Kaggle的新手。再次祝贺他们获得首枚奖牌,也祝贺我们在首次参加的音频竞赛中取得成功🥈🥈🥈!

然后,我要感谢 @takanashihumbert 发布的训练笔记本 Bengali SR wav2vec v1 Bengali Training。另一个感谢是给 @mbmmurad 的,感谢他在 Dataset overlaps with CommonVoice 11 bn 中介绍了数据集 mozilla-foundation/common_voice_11_0 的音频工作。

数据集

我们直接使用了组织者提供的数据,没有使用任何外部数据。

训练环境

我们使用了一个 Colab Pro+ 账户。由于设备和算力的限制,我们无法训练更多的模型(如标点符号模型)以及跑完完整的数据集。

数据增强

为了增加鲁棒性,我们使用了一些增强方法,如 HighLowPass(高低通滤波)、Noise(噪声)和 PitchShift(变调)。

模型训练

预训练模型来自 bengali-ex002。我们每次投入十分之一的数据进行训练(特征编码器和特征提取器轮流冻结)。在冻结特征提取器时,预热学习率为 2e-5。对于特征编码器,学习率为 6e-6。在我们的实验中,batch size(批大小)= 1。在训练了五分之三的数据后,Public Score(公开分数)为 0.42,Private Score(私有分数)为 0.503。

解码参数

我们调整了解码参数,并将其展示在笔记本 Bengali SR wav2vec v1 Bengali Inference for v4 中。

非常感谢大家的阅读。如果您有任何建议,我们很乐意接受。如果您能点赞本帖,我们将不胜感激🥺🥺🥺🙏🙏

同比赛其他方案