11th place solution

576. Bengali.AI Speech Recognition | bengaliai-speech

开始: 2023-07-17 结束: 2023-10-17 音视频处理数据算法赛

第11名解决方案

第11名解决方案

该解决方案采用单个Whisper Medium模型，配合大小为4的集束解码器（beam decoder）。

训练过程

与其他解决方案类似，最关键的一步是使用清洗后的数据。我根据主办方提供的元数据采用以下筛选规则：

cond0 = train_df[
    (
        (train_df.ykg_wer < 0.6) | (train_df.ggl_wer < 0.6)
    ) & (
        (train_df.total_wer_by_client_ykg < 0.7) |
        (train_df.total_wer_by_client_ggl < 0.7)
    ) & (train_df.mos_pred > 1.5)
]

为加速训练，约80%的数据集以两个音频组合的形式输入模型，同时保留部分单音频输入以防止模型产生幻觉（hallucinations）。这也有助于降低可能存在的不良标注的影响。
应用了SpecAugment、SpecAugment++以及CutOut等数据增强技术。

推理过程

推理环节的关键在于正确处理超过30秒的音频以及超过448个token的句子。这一优化使排行榜得分从0.43提升至0.38。
推理代码：https://www.kaggle.com/code/themadrambito/11th-place-whisper-inference

同比赛其他方案

1st place solution

2nd place solution

3rd place solution

4th place solution

5th place solution - ensembling works