不使用外部数据集的40强解决方案！

我们获得了第40名（银牌）。热烈祝贺 BengalX 团队的所有成员：@iftekharamin、@mdfahimreshm、@fahimshahriarkhan 🎉

我要感谢我的团队领导 @iftekharamin Bhaiya，感谢他给予我参加这次比赛的机会，并为我获得银牌提供了正确的指导。

数据集

我们基于 @imtiazprio 发布的训练元数据对数据集进行了筛选。我们使用条件从训练元特征（yellowking_preds 和 google_preds）中过滤出干净的数据集，条件是两者词错误率（wer）相似度达到90%。之后，我们进一步筛选出 mos_pred > 2 的数据集，最终得到大约10万+的数据点。

数据清洗

我们过滤掉时长小于1秒的音频，将其视为异常值，以避免误导模型性能。

数据增强

我们使用了音频增强技术，例如：添加噪声、混合背景音、变速、SpecAug、改变不同的采样率。

STT建模

我们使用了Indic wav2vec2预训练模型，并在筛选后的增强数据集上进行微调。

后处理 - 语言模型解码

我们使用了arijit indic预训练的KenLM。

后处理 - 标点恢复

我们使用了xashru/punctuation-restoration仓库中的xlm-roberta-base模型，并针对本次比赛的数据集进行了微调，用于标点恢复。我们只考虑4种标点类别：{'O': 0, 'COMMA': 1, 'PERIOD': 2, 'QUESTION': 3}。

后处理 - 错误纠正

我们使用了这个仓库的解决方案作为进一步的错误纠正：https://github.com/Tawkat/Bengali-Spell-Checker-and-Auto-Correction-Suggestion-for-MS-Word

40th Place Solution without External Dataset!