2021综述:计算机视觉中的注意力机制(续三):时间注意力
3.4 Temporal Attention时间注意力可以看作是一种动态的时间选择机制,决定何时注意,因此通常用于视频处理。以前的工作[171],[172]经常强调如何捕获短期和长期跨帧特征依赖。在这里,我们首先总结了有代表性的时间注意力机制,并指定了表5中描述为等式1的过程g(x)g(x)g(x)和f(g(x),x)f(g(x), x)f(g(x),x)。然后根据图4中的顺序讨论各种这样的机制。
3.4 Temporal Attention
时间注意力可以看作是一种动态的时间选择机制,决定何时注意,因此通常用于视频处理。以前的工作[171],[172]经常强调如何捕获短期和长期跨帧特征依赖。在这里,我们首先总结了有代表性的时间注意力机制,并指定了表5中描述为等式1的过程g(x)g(x)g(x)和f(g(x),x)f(g(x), x)f(g(x),x)。然后根据图4中的顺序讨论各种这样的机制。
按日期排序的代表性时间注意力机制。Reid=重新识别,行动=行为识别。范围是指注意力地图的范围。S或H表示软注意或硬注意。g(x)g(x)g(x)和f(g(x),x)f(g(x), x)f(g(x),x)是由等式1描述的注意过程。(A) 通过注意力地图聚合信息。(I)利用多尺度短期时间上下文信息(II)捕获长期时间特征相关性(III)捕获局部时间上下文

3.4.1 Self-attention and variants
RNN和时间池化或权值学习已被广泛应用于视频表示学习中,以捕获帧间的交互,但这些方法在效率或时态关系建模方面都有局限性。
为了克服这些问题,Li等人[171]提出了一种全局时间表示法(GLTR),以利用视频序列中的多尺度时间线索。GLTR由用于局部时间上下文学习的空洞时间金字塔(DTP)和用于捕获全局时间交互的时间自注意力模块组成。DTP采用空洞卷积,空洞率逐渐增加,以覆盖不同的时间范围,然后将各种输出连接起来,以聚合多尺度信息。给定输入的逐帧特征 F={f1,…fT}F=\left\{f_{1}, \ldots f_{T}\right\}F={f1,…fT},DTP 可以写成:
{f1(r),…,fT(r)}=DConv(r)(F)ft′=[ft(1);…ft(2n−1)…;ft(2N−1)] \begin{aligned} \left\{f_{1}^{(r)}, \ldots, f_{T}^{(r)}\right\} &=\operatorname{DConv}^{(r)}(F) \\ f_{t}^{\prime} &=\left[f_{t}^{(1)} ; \ldots f_{t}^{\left(2^{n-1}\right)} \ldots ; f_{t}^{\left(2^{N-1}\right)}\right] \end{aligned} {f1(r),…,fT(r)}ft′=DConv(r)(F)=[ft(1);…ft(2n−1)…;ft(2N−1)]
其中DConv (r)(⋅){ }^{(r)}(\cdot)(r)(⋅)表示具有空洞率rrr的空洞卷积。自注意力机制采用卷积层,然后通过批规范化和ReLU激活,基于输入特征图F′=F^{\prime}=F′= {f1′,…fT′}\left\{f_{1}^{\prime}, \ldots f_{T}^{\prime}\right\}{f1′,…fT′}来生成Q∈Rd×TQ \in \mathbb{R}^{d \times T}Q∈Rd×T,K∈Rd×TK \in \mathbb{R}^{d \times T}K∈Rd×T,V∈Rd×TV \in \mathbb{R}^{d \times T}V∈Rd×T,可以写成
Fout =g(VSoftmax(QTK))+F′ F_{\text {out }}=g\left(V \operatorname{Softmax}\left(Q^{T} K\right)\right)+F^{\prime} Fout =g(VSoftmax(QTK))+F′
其中ggg表示通过卷积实现的线性映射。
来自相邻帧的短期时间上下文信息有助于区分视觉上相似的区域,而长期时间信息有助于克服遮挡和噪声。GLTR结合了这两个模块的优点,增强了表示能力并抑制了噪声。它可以整合到任何先进的CNN主干网中,学习整个视频的全局描述符。然而,自注意机制具有二次时间复杂性,限制了其应用。
3.4.2 TAM
为了高效灵活地捕捉复杂的时间关系,Liu等人[172]提出了一种时间自适应模块(TAM)。它采用自适应核代替自注意力来捕获全局上下文信息,时间复杂度低于GLTR[171]。
TAM 有两个分支,一个局部分支和一个全局分支。给定输入特征图X∈RC×T×H×WX \in \mathbb{R}^{C \times T \times H \times W}X∈RC×T×H×W,首先将全局空间平均池化 GAP 应用于特征图,以确保 TAM 具有低计算成本。然后,TAM 中的局部分支在整个时间域上使用多个具有 ReLU 非线性的 1D 卷积来生成位置敏感的重要性图,以增强逐帧特征。局部分支可以写成
s=σ(Conv1D(δ(Conv1D(GAP(X)))))X1=sX \begin{aligned} s &=\sigma(\operatorname{Conv1D}(\delta(\operatorname{Conv1D}(\operatorname{GAP}(X))))) \\ X^{1} &=s X \end{aligned} sX1=σ(Conv1D(δ(Conv1D(GAP(X)))))=sX
与局部分支不同,全局分支是位置不变的,并且专注于基于每个通道中的全局时间信息生成通道自适应内核。对于第$c $个通道,内核可以写为
Θc=Softmax(FC2(δ(FC1(GAP(X)c)))) \Theta_{c}=\operatorname{Softmax}\left(\mathrm{FC}_{2}\left(\delta\left(\mathrm{FC}_{1}\left(\operatorname{GAP}(X)_{c}\right)\right)\right)\right) Θc=Softmax(FC2(δ(FC1(GAP(X)c))))
其中Θc∈RK\Theta_{c} \in \mathbb{R}^{K}Θc∈RK,KKK是自适应内核大小。最后,TAM 将自适应内核Θ\ThetaΘ与Xout 1X_{\text {out }}^{1}Xout 1进行卷积:
Y=Θ⊗X1 Y=\Theta \otimes X^{1} Y=Θ⊗X1
在局部分支和全局分支的帮助下,TAM 可以捕捉视频中复杂的时间结构,并以较低的计算成本增强每帧特征。由于其灵活性和轻量级设计,TAM 可以添加到任何现有的 2D CNN 中。
更多推荐




所有评论(0)