```html
孟加拉虎队第20名解决方案
孟加拉虎队第20名解决方案
Balaji Selvaraj
专家级 | 2023年10月18日
我们的最终解决方案由一个Wave2Vec模型和一个N-Gram模型组成。
步骤1:基础模型训练
在以下数据集上训练5个周期:
- OpenSLR37
- OpenSLR53
- Fleurs
- Common Voice
验证方式:使用Kaggle验证数据集
步骤2:数据清洗
使用步骤1训练的模型评估Kaggle训练数据的词错率(WER),移除词错率超过0.5的样本。
清洗结果:保留的训练数据占原始数据的50-60%
步骤3:精细调优
在扩展数据集上训练20个周期:
- OpenSLR37
- OpenSLR53
- Fleurs
- Common Voice
- 清洗后的训练数据
步骤4:语言模型集成
使用Common Voice数据集构建N-Gram语言模型
Wave2Vec + N-Gram模型
0.396 公共LB
有效策略
- 数据集缓存:显著减少训练时间(但无法实时添加数据增强)
- 延长预热步骤:使用0.25的预热比例防止NaN错误
- MSD输出层:使用多尺度丢弃(Multi-scale Dropout)替代线性层
未成功策略
团队招募:我们正在寻找能够进入前15名的队友。当前成绩基于在清洗后训练数据上训练的8周期模型。
```