返回列表

20th Rank Solution

576. Bengali.AI Speech Recognition | bengaliai-speech

开始: 2023-07-17 结束: 2023-10-17 音视频处理 数据算法赛
```html 孟加拉虎队第20名解决方案

孟加拉虎队第20名解决方案

Balaji Selvaraj
Balaji Selvaraj
专家级 | 2023年10月18日

我们的最终解决方案由一个Wave2Vec模型和一个N-Gram模型组成。

步骤1:基础模型训练

在以下数据集上训练5个周期:

  • OpenSLR37
  • OpenSLR53
  • Fleurs
  • Common Voice

验证方式:使用Kaggle验证数据集

步骤2:数据清洗

使用步骤1训练的模型评估Kaggle训练数据的词错率(WER),移除词错率超过0.5的样本。

清洗结果:保留的训练数据占原始数据的50-60%

步骤3:精细调优

在扩展数据集上训练20个周期:

  • OpenSLR37
  • OpenSLR53
  • Fleurs
  • Common Voice
  • 清洗后的训练数据

步骤4:语言模型集成

使用Common Voice数据集构建N-Gram语言模型

最佳Wave2Vec模型
0.407 LB
Wave2Vec + N-Gram模型
0.396 公共LB

有效策略

  • 数据集缓存:显著减少训练时间(但无法实时添加数据增强)
  • 延长预热步骤:使用0.25的预热比例防止NaN错误
  • MSD输出层:使用多尺度丢弃(Multi-scale Dropout)替代线性层

未成功策略

  • 尝试增加微调步骤,但模型容易过拟合
团队招募:我们正在寻找能够进入前15名的队友。当前成绩基于在清洗后训练数据上训练的8周期模型。
```
同比赛其他方案