```html 孟加拉虎队第20名解决方案

孟加拉虎队第20名解决方案

Balaji Selvaraj

专家级 | 2023年10月18日

我们的最终解决方案由一个Wave2Vec模型和一个N-Gram模型组成。

步骤1：基础模型训练

在以下数据集上训练5个周期：

验证方式：使用Kaggle验证数据集

使用步骤1训练的模型评估Kaggle训练数据的词错率(WER)，移除词错率超过0.5的样本。

清洗结果：保留的训练数据占原始数据的50-60%

在扩展数据集上训练20个周期：

使用Common Voice数据集构建N-Gram语言模型

最佳Wave2Vec模型

0.407 LB

Wave2Vec + N-Gram模型

0.396 公共LB

团队招募：我们正在寻找能够进入前15名的队友。当前成绩基于在清洗后训练数据上训练的8周期模型。

Sinan Calisir Grandmaster | 协作成员 Emir Koçak Expert | 协作成员

```