返回列表

45th Place Solution

650. Drawing with LLMs | drawing-with-llms

开始: 2025-02-25 结束: 2025-05-27 AIGC与多模态 AI大模型赛
第 45 名解决方案
作者: Ray (faykudbq), Zhu Yuezhi (starrysoul)
发布日期: 2025-05-30
竞赛排名: 第 45 名

第 45 名解决方案

竞赛致谢与反思

首先,我要衷心感谢 Kaggle 组织了这次竞赛,这提供了一个极好的机会来扩展我的知识和技能。
我还要感谢 Kawsar Hossain @kawchar85 的富有洞察力的帖子 (链接),这是我工作的重要灵感来源。


竞赛动态

在竞赛的最后一周,排行榜上的动态显著加剧,这让我怀疑某些参与者可能发现了一种新的最先进技术 (SOTA) 文本到图像模型。

因此,我对 arXivHugging FaceOpenReview 上的近期出版物进行了 thorough 审查,但没有发现实质性的突破。
这促使我重新评估我的策略,专注于优化我现有的解决方案

Figure 1


关键实验发现

以下是竞赛中关键实验发现的总结:

1. SDXL Base / Turbo 和 SDXL Hyper

  • 用户友好 且需要最少的参数调整。
  • 促进了较低的入门门槛
  • 我在中期采用了这种方法,最初取得了高排名,但在后期有所下降。

2. SANA 1.5

  • 使用简单的参数设置表现良好,yielding 相对较高的分数。
  • 我假设更高级的超参数优化可以进一步提高性能;然而,时间限制阻碍了额外的探索。

3. DMD2 (4 步 UNet 生成)

  • 我最终的选择之一。
  • 通过利用模型卡中提供的演示代码,我以最小的努力取得了高分。
  • 简单的参数调整 带来了大约 0.02 的提升
  • 进一步的微调可能会产生更好的结果。
  • 表现出相当的稳定性

4. SDXL Flash

  • 也是我最终提交的作品之一。
  • 使用演示代码在公共排行榜上取得了 0.67 的分数
  • 基本参数调整 允许进一步改进。
  • 局限性: 不稳定——相同的配置通常在多次提交中产生显著不同的结果。

总结

在整个竞赛过程中,我尝试了多种模型和策略。虽然有些模型提供了易用性和稳健的基线性能,但其他模型则需要更仔细的调整才能达到最佳结果。稳定性和可复现性 成为重要的考虑因素,特别是在最终评估阶段。

同比赛其他方案