680. MABe Challenge - Social Action Recognition in Mice | MABe-mouse-behavior-detection
x_norm = (x - mean) / std从标准化后的 (x, y) 坐标计算 24 个特征:
每个关键点特征 (8 维):
- x, y (2): 标准化坐标
- vx, vy (2): 速度 (Δt=2 帧)
- ax, ay (2): 加速度 (Δt=2 帧)
鼠标间特征 (16 维,相对于其他 3 只鼠标):
- rel_x, rel_y (6): 相对于鼠标 i 的位置 (i=1,2,3)
- rel_vx, rel_vy (6): 相对于鼠标 i 的速度
- dist (3): 到鼠标 i 的欧几里得距离
- approach_vel (3): 接近速度 (d(dist)/dt)
总计:8 + 16 = 24 特征
输入: [B, 4, K, 24, F] # 批次,鼠标,关键点,特征,帧
↓
ST-GCN (×4) + 时间池化:
[B, 4, K, 128, F'] # 空间图卷积 + 时间卷积 + 池化 (F'=F/p)
↓
关键点注意力池化:
[B, 4, 128, F'] # 关键点上的可学习注意力
↓
成对特征提取:
连接 (agent, target, agent-target, target-agent) 对于 4×4 对
[B, 16, 512, F']
↓
连接嵌入:
+ 实验室 emb (16) + FPS emb (16) + 动作 emb (32)
[B, 16, 576, F']
↓
特征压缩:
[B, 16, 192, F']
↓
带 RoPE 的 Transformer (每对):
[B, 16, F', 192]
↓
时间上采样:
[B, 16, F, 192] # 恢复到原始帧长度
↓
跨对注意力:
16 对相互关注
[B, 4, 4, F, 192]
↓
分类器: [B, 4, 4, 38, F] # 代理,目标,类别,帧
注意:集成中也使用了非成对模型(without Pairwise Feature Extraction / Cross-Pair Attention)。
logits: [B, 4, 4, 38, F] → 展平 → [N, 152] # N = B × 4 代理 × F
三元组掩码 (来自 behaviors_labeled):
Loss = α × CE + (1-α) × MacroSoftF1
训练
TTA (测试时增强)