15th Place Solution: SD3.5M + Vtracer + select best from 3 image

感谢 Kaggle 和比赛的参与者。特别感谢 @richolson 分享了他的想法和笔记本，以及许多其他参与者，他们的每一句话都提供了思考的素材。

解决方案

至于我的解决方案，它使用了 SD3.5M，prompt_suffix = "Flat illustration, stereotypical"。加上 vtracer 用于二分搜索最佳参数。再加上 paligemma2-10b-mix-448 来选择三张图像中最好的一张。

成功的提交直到比赛结束前的晚上才完成。主要的提升来自于将图像描述分成三个问题。

对于简短的描述，拆分方式类似于 TF-IDF：

描述：'a purple forest at dusk'
问题：['Is purple forest?', 'Is forest at?', 'Is at dusk?']

对于较长的描述，文本被简单地分成三部分：

描述：'purple pyramids spiraling around a bronze cone'
问题：['Is purple pyramids?', 'Is spiraling around?', 'Is bronze cone?']