SDXL-Lightning – 字节跳动推出的文本到图像生成模型

0 2

SDXL-Lightning是什么

SDXL-Lightning是由字节跳动的研究团队推出的一种基于扩散模型的文本到图像生成技术，旨在解决传统扩散模型在图像生成速度和计算成本上的局限性。该模型基于 SDXL（Stable Diffusion XL）架构，通过结合渐进式和对抗式蒸馏方法，实现了在一步或少数几步内快速生成1024像素分辨率的高质量图像。这种方法在保持图像质量的同时，显著提高了生成速度，解决了传统扩散模型在生成速度和计算成本上的瓶颈。

SDXL-Lightning的官网入口

Hugging Face模型地址：https://huggingface.co/ByteDance/SDXL-Lightning
Arxiv研究论文：https://arxiv.org/pdf/2402.13929.pdf
SDXL-Lightning的文生图Demo：https://huggingface.co/spaces/AP123/SDXL-Lightning
SDXL-Lightning的实时图片生成Demo：https://huggingface.co/spaces/radames/Real-Time-Text-to-Image-SDXL-Lightning

SDXL-Lightning的主要特点

快速生成高质量图像：SDXL-Lightning 能够在极短的时间内生成高分辨率（1024px）的图像，支持一步或少步生成，用户可以迅速从文本描述中得到高质量的图像结果。
渐进式蒸馏：该方法通过训练学生Student模型来预测数据流的下一个位置，而不是直接预测当前位置的梯度。这允许模型在生成过程中跳过多个步骤，从而加快图像生成速度。
对抗式蒸馏：SDXL-Lightning结合了对抗性训练，通过引入鉴别器网络来区分真实图像和生成图像，以提高生成图像的真实感和质量。
模型和权重开源：SDXL-Lightning 提供了开源的模型和权重，包括LoRA（Low-Rank Adaptation）版本和完整的UNet权重。研究人员和开发者可以轻松地访问和使用这些资源，进行进一步的研究和开发。
兼容性和扩展型：SDXL-Lightning 支持与现有的LoRA模块和控制插件（ControlNet）兼容，可以轻松地集成到现有的图片生成系统（如SD WebUI、ComfyUI）中，为用户提供更多的创作灵活性。

SDXL-Lightning的技术原理

扩散模型（Diffusion Models）：扩散模型是一种生成模型，通过模拟从数据分布到噪声分布的连续过程来生成新的数据样本。这个过程通常涉及求解一个随机微分方程（ODE），并且需要多个推理步骤来生成高质量的图像。
渐进式蒸馏（Progressive Distillation）：渐进式蒸馏是一种训练策略，训练学生模型来预测教师模型在多个推理步骤中的中间状态。该方法允许学生模型在较少的推理步骤中生成图像，从而加快生成过程。
对抗式蒸馏（Adversarial Distillation）：对抗式蒸馏利用鉴别器网络来区分真实图像和生成图像。学生模型被训练以生成能够“欺骗”鉴别器的图像，使其认为这些图像是由教师模型生成的。该方法有助于提高生成图像的质量。
鉴别器设计：SDXL-Lightning使用预训练的扩散模型的U-Net编码器作为鉴别器的骨干网络。这种设计允许鉴别器在潜在空间中操作，从而支持在所有时间步长上的鉴别，并且具有很好的泛化能力。
损失函数和训练技术：为了平衡质量和模式覆盖，SDXL-Lightning在蒸馏过程中使用对抗式损失。此外，还采用了其他训练技术，如在多个时间步长上训练学生网络和鉴别器，以及在x0预测形式中切换模型，以提高训练的稳定性。
模型训练和评估：
- 在训练过程中，首先使用均方误差（MSE）损失进行蒸馏，然后在后续阶段切换到对抗式损失。在每个阶段，首先使用条件目标来保持ODE流，然后使用无条件目标来放松模式覆盖要求。
- 评估模型性能时，使用了Fréchet Inception Distance (FID) 和CLIP分数等指标，以定量比较生成图像的质量和多样性。