650. Drawing with LLMs | drawing-with-llms
我的总体方法是:
笔记本:https://www.kaggle.com/code/linrock/9th-place-sdxl-lora-vqa-boost-aesthetics
梯度方向的旋转和框架颜色的变化旨在提高美学分数,同时对 VQA 的影响最小。
我用 LLM 生成了 1.5k 个描述,并用 FLUX dev 和 Hyper SDXL 生成图像,使用提示变化以增加多样性。图像被量化为 24 种颜色,并应用了中值和高斯滤波以去除细节。数据集由任何给定基础提示的最高分图像组成,基于 paligemma2 VQA 和美学分数。
示例训练图像:

目标是引导图像生成朝向具有高分的构图和调色板,给定通用文本提示。
使用 diffusers train_text_to_image_lora_sdxl.py 训练,偏移噪声为 0.0357,以启用基础 SDXL 否则无法生成的高对比度图像。
这种方法产生的 LB 分数比我尝试的所有基础模型(即 SDXL、SD 1.5、Flux)、社区模型和 LoRA 以及提示组合都要好。
<prompt>?是 / 否<prompt>?是 / 否<prompt> 是否存在于图像中?是 / 否这些既用于 LoRA 数据集的 VQA 分数过滤,也用于图像预测期间对候选图像进行排名。在提交中,我尝试使用 Qwen 根据提示创建定制的 VQA 问题,但没有发现比基本问题组合更好的方法。
