公开榜 Top 10 | 私有榜 Top 38 解决方案
公开榜 Top 10 | 私有榜 Top 38 解决方案
摘要
本文详细介绍了我们在 CSIRO - Image2Biomass 竞赛中的获胜方法。我们的解决方案 addressing 了从高方差图像中量化牧场生物量的复杂回归任务。通过利用 Cutting-edge 基础模型(DinoV3, DinoV2)并实施 robust 集成策略,我们克服了与严重光照变化、遮挡和极端数据稀缺相关的重大挑战。我们的最终架构集成了多尺度补丁学习、多实例学习 (MIL) 和高级特征聚合技术,以实现卓越的泛化能力。
问题定义与挑战
核心挑战涉及在非受限环境条件下,从非结构化视觉数据中回归生物量值 ($kg/ha$)。
- 高方差照明: 巨大的动态范围差异使得衰老(干燥)与光合作用(绿色)植被的语义分割变得复杂。
- 小样本机制: 有限的数据集大小带来了高度的过拟合风险,使得大型 CNN 或 ViT 的传统全监督训练无效。
方法论:基础模型集成
我们的策略从训练 scratch 架构转向利用自监督视觉 Transformer 的语义丰富性。我们构建了一个由 5 个不同回归管道组成的异构集成,稳定了数据中固有的偶然不确定性。
架构 I: 粗粒度空间聚合 (2x2 网格)
- 骨干网络: Dino V3 ViT-7B (最先进的基础模型)。
- 特征提取: 利用 4 补丁空间分解 (2x2 网格) 来捕捉局部 - 全局上下文。
- 回归头: 在冻结嵌入上训练的轻量级多层感知机 (MLP)。
- 损失函数: 选择 SmoothL1 损失 而非 MSE,以减少对标签异常值的敏感性并提高收敛稳定性。
- 鲁棒性: 实施种子平均 (随机权重平均代理) 以最小化方差。
- 数据清洗: 手动策划数据集以排除具有真值标签噪声的样本 (移除 2 个实例)。
架构 II: 细粒度空间聚合 (3x3 网格)
- 差异化: 增加特征提取的空间分辨率。
- 预处理: 将图像分解为 9 补丁网格 (3x3),使模型能够专注于牧场结构的更精细纹理细节。
- 骨干网络 & 头: 在 Dino V3 ViT-7B 嵌入上进行相同的 MLP 投影。
架构 III: 深度多实例学习 (MIL)
- 架构: MilTransformer。将生物量估计视为特征袋问题。
- 骨干网络: Dino V2 ViT-G14 (配备寄存器)。寄存器令牌增强了模型丢弃背景噪声的能力。
- 优化: 通过标准 MSE 损失进行训练。
- 增强策略: 引入垂直翻转以强制旋转不变性,而不扭曲生物量分布先验。
架构 IV: 密集步长特征提取
- 差异化: 高密度特征采样。
- 机制: 在 Dino V3 ViT-7B 嵌入上采用步长为 112px 的滑动窗口方法。这确保了关键视觉特征的最大覆盖和重叠。
架构 V: 大规模感受野分析
- 差异化: 扩展上下文窗口。
- 机制: 将补丁大小增加到 336px,以捕捉宏观生物量模式和纹理密度,补充细粒度模型。
工程:规模化推理管道
为了满足计算约束同时最大化吞吐量,我们架构了一个分布式推理管道,将巨大的特征提取工作负载并行化 across 双 GPU 节点。
消融研究与研究局限性
我们进行了广泛的实验来验证我们的假设空间。由于低数据机制,经典深度学习技术被证明是有害的:
- 负面结果: 标准 CNN 微调、激进 TTA (测试时增强) 和端到端 Transformer 训练导致快速过拟合。
- 合成域适应: 我们使用 Nano Banana 生成模型生成合成样本以增强训练分布。虽然这降低了公开排行榜性能 (可能是由于分布偏移),但事后分析显示它在私有排行榜上产生了 SOTA 分数,表明改进的泛化能力受到了公开测试集分布的惩罚。
结果总结
我们的集成 demonstrates 了相对于个体弱学习器的显著性能提升。
| 模型架构 |
公开榜分数 (RMSE) |
| I. DinoV3 (2x2 补丁) |
0.74 |
| II. DinoV3 (3x3 补丁) |
0.74 |
| III. MIL Transformer (DinoV2) |
0.74 |
| IV. DinoV3 (密集步长) |
0.76 |
| V. DinoV3 (大补丁) |
0.75 |
| 最终集成 (加权混合) |
0.779 |