576. Bengali.AI Speech Recognition | bengaliai-speech
首先,我们要感谢Bengali.ai和Kaggle举办了这场关于孟加拉语语音识别的出色竞赛,并发布了该领域的大规模数据集。至少可以说,这场比赛充满了挑战。但我很享受过去三个月为此付出的过程。这对我来说是一段相当不错的学习历程。我有机会为社区做出贡献,并通过这次竞赛与社区互动。在本次竞赛中,我的notebook获得了1枚金牌、2枚银牌和8枚铜牌。总之,这是忙碌而快乐的三个月!
声学模型:我们微调了ai4bharat/indicwav2vec_v1_bengali模型
数据集:竞赛数据 + Openslr53 + openslr37 + TTS数据集
在初始阶段,我们使用完整的竞赛数据微调模型,结果反而使情况变得更糟,将LB分数拖到了最佳公开notebook(0.445)以下。
随后,我们使用主办方提供的训练元数据过滤掉竞赛数据中质量较差的音频(我们选择MOS≥2的音频)。
我们对训练集和验证集数据进行随机划分(因为MaCro验证集的音频质量明显优于训练集音频),使用95%的音频进行训练,然后添加其他数据集。这使得LB分数提升至0.430。
数据增强:混响、速度扰动、音量扰动(0.125倍 ~ 2.0倍)
从示例音频中添加背景噪声(略微提升了性能)
语言模型:我们使用竞赛语句 + banglanmt + IndicCorp_V2构建了一个5-gram语言模型