9th place - SDXL LoRA fine-tune

650. Drawing with LLMs | drawing-with-llms

开始: 2025-02-25 结束: 2025-05-27 AIGC与多模态 AI大模型赛

第 9 名 - SDXL LoRA 微调

作者: linrock (专家)
排名: 第 9 名
发布时间: 2025-05-28

第 9 名 - SDXL LoRA 微调

我的总体方法是：

使用扩散模型生成图像
添加图像框和渐变背景以提高美学分数
使用基本问题进行 VQA（视觉问答）以选择候选图像
尝试对图像进行轻微变化以进一步提高美学分数

笔记本：https://www.kaggle.com/code/linrock/9th-place-sdxl-lora-vqa-boost-aesthetics

示例输出：

梯度方向的旋转和框架颜色的变化旨在提高美学分数，同时对 VQA 的影响最小。

示例输出截图

扩散模型配置：

SDXL base 1.0
TinyVAE 以加速图像生成
LoRA 在量化颜色图像上训练，过滤了高美学和提示对齐的内容
采样器：DPMSolver++ Karras 2M
引导尺度：5
推理步数：8
图像尺寸：768x768

LoRA 训练：

我用 LLM 生成了 1.5k 个描述，并用 FLUX dev 和 Hyper SDXL 生成图像，使用提示变化以增加多样性。图像被量化为 24 种颜色，并应用了中值和高斯滤波以去除细节。数据集由任何给定基础提示的最高分图像组成，基于 paligemma2 VQA 和美学分数。

示例训练图像：
训练图像示例

目标是引导图像生成朝向具有高分的构图和调色板，给定通用文本提示。

使用 diffusers train_text_to_image_lora_sdxl.py 训练，偏移噪声为 0.0357，以启用基础 SDXL 否则无法生成的高对比度图像。

这种方法产生的 LB 分数比我尝试的所有基础模型（即 SDXL、SD 1.5、Flux）、社区模型和 LoRA 以及提示组合都要好。

基本 VQA 问题：

图像是否显示 <prompt>？是 / 否
是否有 <prompt>？是 / 否
<prompt> 是否存在于图像中？是 / 否

这些既用于 LoRA 数据集的 VQA 分数过滤，也用于图像预测期间对候选图像进行排名。在提交中，我尝试使用 Qwen 根据提示创建定制的 VQA 问题，但没有发现比基本问题组合更好的方法。

杂项：

我使用差分进化来搜索图像修改以提高美学分数，发现添加绿色背景上的图像框往往效果很好
除了数据生成外，我没有发现任何有用的方法让 LLM 参与图像生成过程
PNG 到 SVG 代码是在 Rich Olson 的笔记本基础上逐步改进的，后来是在 OCR 诱饵上改进的，因为它看起来比我之前使用的签名更好
模糊后美学分数最高的图像始终是色彩鲜艳的景观：

查看比赛笔记本 https://www.kaggle.com/code/linrock/9th-place-sdxl-lora-vqa-boost-aesthetics

同比赛其他方案

1st Place Solution

2nd Place Solution

3rd place solution: VQA/AES=0.81/0.64 Diffusion model + differentiable SVG optimization

4th Place Solution: SD3.5M + DRaFT + diffvg

5th place solution - VTracer and DiffVG optimization