感谢 Kaggle 和比赛的参与者。特别感谢 @richolson 分享了他的想法和笔记本,以及许多其他参与者,他们的每一句话都提供了思考的素材。
解决方案
至于我的解决方案,它使用了 SD3.5M,prompt_suffix = "Flat illustration, stereotypical"。加上 vtracer 用于二分搜索最佳参数。再加上 paligemma2-10b-mix-448 来选择三张图像中最好的一张。
成功的提交直到比赛结束前的晚上才完成。主要的提升来自于将图像描述分成三个问题。
主要提升
对于简短的描述,拆分方式类似于 TF-IDF:
描述:'a purple forest at dusk'
问题:['Is purple forest?', 'Is forest at?', 'Is at dusk?']
对于较长的描述,文本被简单地分成三部分:
描述:'purple pyramids spiraling around a bronze cone'
问题:['Is purple pyramids?', 'Is spiraling around?', 'Is bronze cone?']