第 45 名解决方案
作者: Tâm Anh Nguyễn Duy
发布时间: 2025 年 5 月 29 日
排名: 第 44 名 (竞赛排名)
第 45 名解决方案
📌 整体流程
1️⃣ 位图生成 (SDXL-Turbo)
- 我使用了 SDXL-Turbo 模型来生成位图图像。
- 提示词工程 以提高多样性和质量:
prefix_prompt = "flat color illustration,"
suffix_prompt = ",inspired by Tom Whalen, vibrant palette, bold outlines, simple shapes, app icon."
- 对于每个提示词,我生成了 5 张图像。
2️⃣ 初始 SVG 转换 (vtracer)
- 对于每张位图图像,我使用 vtracer 将其转换为 SVG。
- 经过实验,我发现这 三个参数 显著影响 SVG 文件大小:
speckle_values = [10, 20, 40]
layer_diff_values = [64, 128]
color_precision_values = [4, 5, 6, 8]
- 我尝试了这些参数的不同组合,以找到最小文件(<10k)同时保持视觉质量。
3️⃣ SVG 优化 (scour)
- 我应用 scour 来优化由 vtracer 生成的每个 SVG 文件。
- 然后,我使用 SSIM(结构相似性指数) 来:
- 找到视觉上最接近原始位图的 SVG。
- 确保文件大小接近 10k。
4️⃣ OCR 幻觉防御
5️⃣ 最佳 SVG 选择
- 我使用 PaliGemma2 和一个 美学预测器 来选择最终的 SVG,使其:
✨ 感谢阅读我的解决方案!祝 Kaggle 愉快!✨