576. Bengali.AI Speech Recognition | bengaliai-speech
我们获得了第40名(银牌)。热烈祝贺 BengalX 团队的所有成员:@iftekharamin、@mdfahimreshm、@fahimshahriarkhan 🎉
我要感谢我的团队领导 @iftekharamin Bhaiya,感谢他给予我参加这次比赛的机会,并为我获得银牌提供了正确的指导。
我们基于 @imtiazprio 发布的训练元数据对数据集进行了筛选。我们使用条件从训练元特征(yellowking_preds 和 google_preds)中过滤出干净的数据集,条件是两者词错误率(wer)相似度达到90%。之后,我们进一步筛选出 mos_pred > 2 的数据集,最终得到大约10万+的数据点。
我们过滤掉时长小于1秒的音频,将其视为异常值,以避免误导模型性能。
我们使用了音频增强技术,例如:添加噪声、混合背景音、变速、SpecAug、改变不同的采样率。
我们使用了Indic wav2vec2预训练模型,并在筛选后的增强数据集上进行微调。
我们使用了arijit indic预训练的KenLM。
我们使用了xashru/punctuation-restoration仓库中的xlm-roberta-base模型,并针对本次比赛的数据集进行了微调,用于标点恢复。我们只考虑4种标点类别:{'O': 0, 'COMMA': 1, 'PERIOD': 2, 'QUESTION': 3}。
我们使用了这个仓库的解决方案作为进一步的错误纠正:https://github.com/Tawkat/Bengali-Spell-Checker-and-Auto-Correction-Suggestion-for-MS-Word