返回列表

15th Place Solution: SD3.5M + Vtracer + select best from 3 image

650. Drawing with LLMs | drawing-with-llms

开始: 2025-02-25 结束: 2025-05-27 AIGC与多模态 AI大模型赛
第 15 名解决方案:SD3.5M + Vtracer + 从 3 张图像中选择最佳

第 15 名解决方案:SD3.5M + Vtracer + 从 3 张图像中选择最佳

作者: Mikhail Golubchik
排名: 第 15 名
发布日期: 2025-05-28

感谢 Kaggle 和比赛的参与者。特别感谢 @richolson 分享了他的想法和笔记本,以及许多其他参与者,他们的每一句话都提供了思考的素材。

解决方案

至于我的解决方案,它使用了 SD3.5M,prompt_suffix = "Flat illustration, stereotypical"。加上 vtracer 用于二分搜索最佳参数。再加上 paligemma2-10b-mix-448 来选择三张图像中最好的一张。

成功的提交直到比赛结束前的晚上才完成。主要的提升来自于将图像描述分成三个问题。

主要提升

对于简短的描述,拆分方式类似于 TF-IDF:

描述:'a purple forest at dusk'
问题:['Is purple forest?', 'Is forest at?', 'Is at dusk?']

对于较长的描述,文本被简单地分成三部分:

描述:'purple pyramids spiraling around a bronze cone'
问题:['Is purple pyramids?', 'Is spiraling around?', 'Is bronze cone?']

同比赛其他方案