Sketch-Guided Text-to-Image Diffusion Models阅读笔记

1. 摘要

  • 使用了一种方法来指导text-image的生成
  • 不需要专门训练解码器和模型
关键思想:
  • 训练一个隐空间的指导预测器(一个小型的逐像素的多层的感知器)
  • 作用:将噪声图像的潜在特征映射到空间图上,其中深层的特征是从DDPM的核心里提取出来的

3. 相关工作:

SDEdit:

在前向扩散过程的中途向输入的引导图像添加噪声,然后在反向过程中用引导文本去噪。这两种方法都能用图像来引导模型,而引导图像应该在RGB域,对引导图像的空间属性的保真度是有限的和随机的

Pretraining is All You Need for Image-to-Image Translation:

通过训练一个专门的、每个任务的编码器,将空间地图映射到扩散模型的潜在空间中,为各种图像翻译任务使用一个预训练的无条件扩散模型

Logo

一站式 AI 云服务平台

更多推荐