粗读Is Space-Time Attention All You Need for Video Understanding?
由于视频处理与语言处理存在一定的相似性,都是连续的且要关注上下文,因此作者设计出了一种新的注意力机制,同时关注该帧不同区域的信息和前后几帧的信息,实现无卷积的视频分类。在上图中,蓝色为所要查询的格子,红色等其他颜色为注意力覆盖区域,没上色的表示计算注意力时没关注这些格子。传统的ViT只关注目前这一帧的其他区域,而本文会关注前后帧的信息。同时,本文关注的是Divided Space-Time Att
·
由于视频处理与语言处理存在一定的相似性,都是连续的且要关注上下文,因此作者设计出了一种新的注意力机制,同时关注该帧不同区域的信息和前后几帧的信息,实现无卷积的视频分类。

在上图中,蓝色为所要查询的格子,红色等其他颜色为注意力覆盖区域,没上色的表示计算注意力时没关注这些格子。传统的ViT只关注目前这一帧的其他区域,而本文会关注前后帧的信息。
同时,本文关注的是Divided Space-Time Attention方法,即图中第三列方法,这种方法相比于第二列,可以节省内存需求量,同时依然取得优秀的结果
更多推荐




所有评论(0)