第 45 名解决方案
作者: Ray (faykudbq), Zhu Yuezhi (starrysoul)
发布日期: 2025-05-30
竞赛排名: 第 45 名
第 45 名解决方案
竞赛致谢与反思
首先,我要衷心感谢 Kaggle 组织了这次竞赛,这提供了一个极好的机会来扩展我的知识和技能。
我还要感谢 Kawsar Hossain @kawchar85 的富有洞察力的帖子 (链接),这是我工作的重要灵感来源。
竞赛动态
在竞赛的最后一周,排行榜上的动态显著加剧,这让我怀疑某些参与者可能发现了一种新的最先进技术 (SOTA) 文本到图像模型。
因此,我对 arXiv、Hugging Face 和 OpenReview 上的近期出版物进行了 thorough 审查,但没有发现实质性的突破。
这促使我重新评估我的策略,专注于优化我现有的解决方案。

关键实验发现
以下是竞赛中关键实验发现的总结:
1. SDXL Base / Turbo 和 SDXL Hyper
- 用户友好 且需要最少的参数调整。
- 促进了较低的入门门槛。
- 我在中期采用了这种方法,最初取得了高排名,但在后期有所下降。
2. SANA 1.5
- 使用简单的参数设置表现良好,yielding 相对较高的分数。
- 我假设更高级的超参数优化可以进一步提高性能;然而,时间限制阻碍了额外的探索。
3. DMD2 (4 步 UNet 生成)
- 我最终的选择之一。
- 通过利用模型卡中提供的演示代码,我以最小的努力取得了高分。
- 简单的参数调整 带来了大约 0.02 的提升。
- 进一步的微调可能会产生更好的结果。
- 表现出相当的稳定性。
4. SDXL Flash
- 也是我最终提交的作品之一。
- 使用演示代码在公共排行榜上取得了 0.67 的分数。
- 基本参数调整 允许进一步改进。
- 局限性: 不稳定——相同的配置通常在多次提交中产生显著不同的结果。
总结
在整个竞赛过程中,我尝试了多种模型和策略。虽然有些模型提供了易用性和稳健的基线性能,但其他模型则需要更仔细的调整才能达到最佳结果。稳定性和可复现性 成为重要的考虑因素,特别是在最终评估阶段。