返回列表

11th place solution

576. Bengali.AI Speech Recognition | bengaliai-speech

开始: 2023-07-17 结束: 2023-10-17 音视频处理 数据算法赛
第11名解决方案

第11名解决方案

该解决方案采用单个Whisper Medium模型,配合大小为4的集束解码器(beam decoder)。

训练过程

  • 与其他解决方案类似,最关键的一步是使用清洗后的数据。我根据主办方提供的元数据采用以下筛选规则:
    cond0 = train_df[
        (
            (train_df.ykg_wer < 0.6) | (train_df.ggl_wer < 0.6)
        ) & (
            (train_df.total_wer_by_client_ykg < 0.7) |
            (train_df.total_wer_by_client_ggl < 0.7)
        ) & (train_df.mos_pred > 1.5)
    ]
  • 为加速训练,约80%的数据集以两个音频组合的形式输入模型,同时保留部分单音频输入以防止模型产生幻觉(hallucinations)。这也有助于降低可能存在的不良标注的影响。
  • 应用了SpecAugment、SpecAugment++以及CutOut等数据增强技术。

推理过程

同比赛其他方案