Top 10 Public | Top 38 Private solution | 优胜方案

公开榜 Top 10 | 私有榜 Top 38 解决方案

作者: Artem Goncharov

合作者: MarkDjadchenko, Artem Veshkin

发布时间: 2026-02-05

竞赛: CSIRO - Image2Biomass

摘要

本文详细介绍了我们在 CSIRO - Image2Biomass 竞赛中的获胜方法。我们的解决方案 addressing 了从高方差图像中量化牧场生物量的复杂回归任务。通过利用 Cutting-edge 基础模型（DinoV3, DinoV2）并实施 robust 集成策略，我们克服了与严重光照变化、遮挡和极端数据稀缺相关的重大挑战。我们的最终架构集成了多尺度补丁学习、多实例学习 (MIL) 和高级特征聚合技术，以实现卓越的泛化能力。

问题定义与挑战

核心挑战涉及在非受限环境条件下，从非结构化视觉数据中回归生物量值 ($kg/ha$)。

高方差照明: 巨大的动态范围差异使得衰老（干燥）与光合作用（绿色）植被的语义分割变得复杂。
小样本机制: 有限的数据集大小带来了高度的过拟合风险，使得大型 CNN 或 ViT 的传统全监督训练无效。

方法论：基础模型集成

我们的策略从训练 scratch 架构转向利用自监督视觉 Transformer 的语义丰富性。我们构建了一个由 5 个不同回归管道组成的异构集成，稳定了数据中固有的偶然不确定性。

架构 I: 粗粒度空间聚合 (2x2 网格)

骨干网络: Dino V3 ViT-7B (最先进的基础模型)。
特征提取: 利用 4 补丁空间分解 (2x2 网格) 来捕捉局部 - 全局上下文。
回归头: 在冻结嵌入上训练的轻量级多层感知机 (MLP)。
损失函数: 选择 SmoothL1 损失 而非 MSE，以减少对标签异常值的敏感性并提高收敛稳定性。
鲁棒性: 实施种子平均 (随机权重平均代理) 以最小化方差。
数据清洗: 手动策划数据集以排除具有真值标签噪声的样本 (移除 2 个实例)。

架构 II: 细粒度空间聚合 (3x3 网格)

差异化: 增加特征提取的空间分辨率。
预处理: 将图像分解为 9 补丁网格 (3x3)，使模型能够专注于牧场结构的更精细纹理细节。
骨干网络 & 头: 在 Dino V3 ViT-7B 嵌入上进行相同的 MLP 投影。

架构 III: 深度多实例学习 (MIL)

架构: MilTransformer。将生物量估计视为特征袋问题。
骨干网络: Dino V2 ViT-G14 (配备寄存器)。寄存器令牌增强了模型丢弃背景噪声的能力。
优化: 通过标准 MSE 损失进行训练。
增强策略: 引入垂直翻转以强制旋转不变性，而不扭曲生物量分布先验。

架构 IV: 密集步长特征提取

差异化: 高密度特征采样。
机制: 在 Dino V3 ViT-7B 嵌入上采用步长为 112px 的滑动窗口方法。这确保了关键视觉特征的最大覆盖和重叠。

架构 V: 大规模感受野分析

差异化: 扩展上下文窗口。
机制: 将补丁大小增加到 336px，以捕捉宏观生物量模式和纹理密度，补充细粒度模型。

工程：规模化推理管道

为了满足计算约束同时最大化吞吐量，我们架构了一个分布式推理管道，将巨大的特征提取工作负载并行化 across 双 GPU 节点。

消融研究与研究局限性

我们进行了广泛的实验来验证我们的假设空间。由于低数据机制，经典深度学习技术被证明是有害的：

负面结果: 标准 CNN 微调、激进 TTA (测试时增强) 和端到端 Transformer 训练导致快速过拟合。
合成域适应: 我们使用 Nano Banana 生成模型生成合成样本以增强训练分布。虽然这降低了公开排行榜性能 (可能是由于分布偏移)，但事后分析显示它在私有排行榜上产生了 SOTA 分数，表明改进的泛化能力受到了公开测试集分布的惩罚。

结果总结

我们的集成 demonstrates 了相对于个体弱学习器的显著性能提升。

模型架构	公开榜分数 (RMSE)
I. DinoV3 (2x2 补丁)	0.74
II. DinoV3 (3x3 补丁)	0.74
III. MIL Transformer (DinoV2)	0.74
IV. DinoV3 (密集步长)	0.76
V. DinoV3 (大补丁)	0.75
最终集成 (加权混合)	0.779

Top 10 Public | Top 38 Private solution