返回列表

45th Place Solution

650. Drawing with LLMs | drawing-with-llms

开始: 2025-02-25 结束: 2025-05-27 AIGC与多模态 AI大模型赛
第 45 名解决方案
作者: Tâm Anh Nguyễn Duy
发布时间: 2025 年 5 月 29 日
排名: 第 44 名 (竞赛排名)

第 45 名解决方案

📌 整体流程

整体流程示意图

1️⃣ 位图生成 (SDXL-Turbo)

  • 我使用了 SDXL-Turbo 模型来生成位图图像。
  • 提示词工程 以提高多样性和质量:
    • prefix_prompt = "flat color illustration,"
    • suffix_prompt = ",inspired by Tom Whalen, vibrant palette, bold outlines, simple shapes, app icon."
  • 对于每个提示词,我生成了 5 张图像

2️⃣ 初始 SVG 转换 (vtracer)

  • 对于每张位图图像,我使用 vtracer 将其转换为 SVG。
  • 经过实验,我发现这 三个参数 显著影响 SVG 文件大小:
    • speckle_values = [10, 20, 40]
    • layer_diff_values = [64, 128]
    • color_precision_values = [4, 5, 6, 8]
  • 我尝试了这些参数的不同组合,以找到最小文件(<10k)同时保持视觉质量。

3️⃣ SVG 优化 (scour)

  • 我应用 scour 来优化由 vtracer 生成的每个 SVG 文件。
  • 然后,我使用 SSIM(结构相似性指数) 来:
    • 找到视觉上最接近原始位图的 SVG。
    • 确保文件大小接近 10k。

4️⃣ OCR 幻觉防御


5️⃣ 最佳 SVG 选择

  • 我使用 PaliGemma2 和一个 美学预测器 来选择最终的 SVG,使其:
    • 视觉上吸引人。
    • 与提示词保持一致。

✨ 感谢阅读我的解决方案!祝 Kaggle 愉快!✨

同比赛其他方案