CVPR2025论文解析|Timestep Embedding Tells It‘s Time to Cache for Video Diffusion Model

本文提出了一种名为时间步嵌入感知缓存（TeaCache）的新方法，旨在加速视频生成中的扩散模型推理过程。传统方法通过在均匀选取的时间步长上缓存模型输出来提高推理速度，但未能充分利用模型输出在不同时间步长之间的差异。TeaCache通过关注模型输入，利用时间步嵌入调制的噪声输入来估计模型输出的差异，从而实现高效的缓存策略。实验结果表明，TeaCache在视觉质量几乎不下降的情况下，能够实现高达4.4

SJ_HP

891人浏览 · 2025-03-10 11:14:24

SJ_HP · 2025-03-10 11:14:24 发布

论文标题

Timestep Embedding Tells: It’s Time to Cache for Video Diffusion Model 时间步嵌入揭示：是时候为视频扩散模型缓存了

论文链接

Timestep Embedding Tells: It’s Time to Cache for Video Diffusion Model论文下载

论文作者

Feng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan

内容简介

分点关键点

TeaCache方法
- TeaCache是一种无需训练的缓存方法，能够估计和利用模型输出在不同时间步长之间的波动差异。该方法通过调制噪声输入，确保输入与输出之间的强相关性，从而实现高效的缓存。
推理速度提升
- TeaCache通过重用先前时间步的缓存输出，避免了冗余计算，显著提高了推理速度。实验表明，TeaCache在多个视频生成模型中均表现出色，能够在保持视觉质量的同时加速推理过程。
动态缓存策略
- TeaCache采用动态缓存策略，根据模型输入的差异来决定是否重用缓存的输出。这种方法相比于传统的均匀缓存策略，能够更灵活地利用缓存，提高了推理效率。
实验结果
- 实验结果显示，TeaCache在多个基准模型（如Open-Sora、Open-Sora-Plan和Latte）上均实现了显著的加速效果，且视觉质量损失极小，证明了其在视频生成中的有效性。