返回列表

9th place - SDXL LoRA fine-tune

650. Drawing with LLMs | drawing-with-llms

开始: 2025-02-25 结束: 2025-05-27 AIGC与多模态 AI大模型赛
第 9 名 - SDXL LoRA 微调
作者: linrock (专家)
排名: 第 9 名
发布时间: 2025-05-28

第 9 名 - SDXL LoRA 微调

我的总体方法是:

  • 使用扩散模型生成图像
  • 添加图像框和渐变背景以提高美学分数
  • 使用基本问题进行 VQA(视觉问答)以选择候选图像
  • 尝试对图像进行轻微变化以进一步提高美学分数

笔记本:https://www.kaggle.com/code/linrock/9th-place-sdxl-lora-vqa-boost-aesthetics

示例输出:

梯度方向的旋转和框架颜色的变化旨在提高美学分数,同时对 VQA 的影响最小。

示例输出截图

扩散模型配置:

  • SDXL base 1.0
  • TinyVAE 以加速图像生成
  • LoRA 在量化颜色图像上训练,过滤了高美学和提示对齐的内容
  • 采样器:DPMSolver++ Karras 2M
  • 引导尺度:5
  • 推理步数:8
  • 图像尺寸:768x768

LoRA 训练:

我用 LLM 生成了 1.5k 个描述,并用 FLUX dev 和 Hyper SDXL 生成图像,使用提示变化以增加多样性。图像被量化为 24 种颜色,并应用了中值和高斯滤波以去除细节。数据集由任何给定基础提示的最高分图像组成,基于 paligemma2 VQA 和美学分数。

示例训练图像:
训练图像示例

目标是引导图像生成朝向具有高分的构图和调色板,给定通用文本提示。

使用 diffusers train_text_to_image_lora_sdxl.py 训练,偏移噪声为 0.0357,以启用基础 SDXL 否则无法生成的高对比度图像。

这种方法产生的 LB 分数比我尝试的所有基础模型(即 SDXL、SD 1.5、Flux)、社区模型和 LoRA 以及提示组合都要好。

基本 VQA 问题:

  • 图像是否显示 <prompt>?是 / 否
  • 是否有 <prompt>?是 / 否
  • <prompt> 是否存在于图像中?是 / 否

这些既用于 LoRA 数据集的 VQA 分数过滤,也用于图像预测期间对候选图像进行排名。在提交中,我尝试使用 Qwen 根据提示创建定制的 VQA 问题,但没有发现比基本问题组合更好的方法。

杂项:

  • 我使用差分进化来搜索图像修改以提高美学分数,发现添加绿色背景上的图像框往往效果很好
  • 除了数据生成外,我没有发现任何有用的方法让 LLM 参与图像生成过程
  • PNG 到 SVG 代码是在 Rich Olson 的笔记本基础上逐步改进的,后来是在 OCR 诱饵上改进的,因为它看起来比我之前使用的签名更好
  • 模糊后美学分数最高的图像始终是色彩鲜艳的景观:
    高分景观图像
同比赛其他方案