返回列表

22th-place solution : simulated CW signals & augmentations

524. G2Net Detecting Continuous Gravitational Waves | g2net-detecting-continuous-gravitational-waves

开始: 2022-10-04 结束: 2023-01-03 物理与天文 数据算法赛
第22名方案:模拟连续波信号与数据增强

第22名方案:模拟连续波信号与数据增强

作者:Hyeongchan Kim (kozistr) | 排名:第22名

大家好!

首先,感谢 EGO 举办了这场激动人心的比赛!同时,祝贺所有的获奖者!

数据

预处理

在我的实验中,预处理normalize 函数)的效果优于功率谱图。它在 CV/LB 上将分数提高了约 +0.02。对信号进行归一化后,在时间轴上取平均值。最终的形状为 (360, 360)。

模拟

生成样本是提高分数最关键的部分。仅凭单一模型,我就能在 LB 上获得 0.761 的分数。

简而言之,信号深度(sqrtSX / h0)影响巨大。我生成了 10 万个样本(5 万正样本,5 万负样本),并在 10 到 100 之间均匀采样信号深度。cosi 参数在 (-1, 1) 之间均匀采样。

信号深度 LB 分数
10 ~ 50 0.73x ~ 0.74x
10 ~ 80 0.75x
10 ~ 100 0.761

数据增强

此外,我在数据增强上花了很多时间。以下是列表:

  1. 垂直/水平翻转
  2. 通道混洗
  3. 频率轴上的偏移
  4. 信号去噪(从信号中减去相应的噪声)
  5. 添加噪声
    • 高斯噪声 N(0, 1e-2)
    • 与另一个(平稳)噪声混合(相加或拼接)
  6. 添加垂直线伪影。
  7. SpecAugment
  8. mixup (alpha 5.0)
    • 执行 or mixup

模型

首先,我尝试搜索各种主干网络(effnet, nfnet, resnest, convnext, vit-based),发现 convnext 在 CV 和 LB 分数上表现最好。在选择了基准主干网络后,我尝试自定义主干层(例如大卷积核 & 池化尺寸,具有不同卷积核尺寸的多卷积主干),以便有效地检测持续时间长的信号,但它们并没有对性能产生积极影响。

集成

集成中使用的大多数模型是 convnext-xlarge,但每个模型都使用了不同的变量(例如数据增强、模拟样本等)进行训练,还有一个模型使用了 eca-nfnet-l2efficientnetv2-xl。每个模型都在不同的数据集上训练,LB 分数看起来很可靠,所以我根据 LB 分数调整了集成权重。

我选择了两个最好的 LB 提交(LB 0.768 PB 0.771)。而我未选择的最好 PB 是 0.778(LB 0.766)(混合了我所有的实验)。

有效的方法

  • convnext 系列主干网络
  • 信号深度 10 ~ 100
  • 强力数据增强
  • 成对分层 K 折交叉验证
    • 8 折
    • 按目标分层
    • pair 意味着配对(相应的噪声和信号)必须在同一折中。
  • 伪标签(平滑标签)
  • 分割(但在我的实验中很难收敛)
  • TTA(测试时增强)

无效的方法

  • 带有分类头的分割 (0.6 * bce + 0.4 * dice)
    • 实际上,带有分类的分割比仅分类效果稍好,但很难在不发生损失发散的情况下进行训练。所以,我只做了分类。
  • cosi == 0
    • cosi 也是决定信噪比 (SNR) 的关键参数。我生成了更多 cosi 为 0 的样本,但分数反而下降了。
  • 数据增强(无效)
    • 与随机负样本交换(在过去的比赛中提出过)
    • 随机尺寸裁
同比赛其他方案