加入收藏 | 设为首页 | 会员中心 | 我要投稿 南通站长网 (https://www.0513zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

完全基于Transformer的首个视频理解架构出炉

发布时间:2021-03-25 15:55:07 所属栏目:外闻 来源:互联网
导读:仅建立在 Transformer 模型中使用的自注意力机制上,这使得捕获整个视频的时空依赖关系成为可能。为了将 Transformer 应用到视频中,该模型将输入视频解释为从每个帧中提取的图像 patch 的时间 - 空间序列。 这种格式类似于 NLP 中使用的格式,在 NLP 中,Tr

仅建立在 Transformer 模型中使用的自注意力机制上,这使得捕获整个视频的时空依赖关系成为可能。为了将 Transformer 应用到视频中,该模型将输入视频解释为从每个帧中提取的图像 patch 的时间 - 空间序列。

这种格式类似于 NLP 中使用的格式,在 NLP 中,Transformer 将句子视为从每个单词中计算出的特征向量序列。正如 NLP Transformer 通过将每个单词与句子中的其他单词进行比较来推断其含义一样,该模型通过显式地将每个 patch 与视频中的其他 patch 进行比较来捕获每个 patch 的含义。这也是所谓的自注意力机制,这使得捕获相邻 patch 之间的短程依赖性以及远距离 patch 之间的远程关联成为可能。

传统的 3D 卷积神经网络计算成本比较高昂,因为它们需要在视频中所有的空间 - 时间位置上使用大量的滤波器。而 TimeSformer 具有较低的计算成本,因为它:(1)将视频分解成一组不重叠的 patch;(2)采用自注意力,避免对所有 patch 对进行详尽的比较。研究者将此方案称为分割空间 - 时间注意力,其思想是依次应用时间注意力和空间注意力。

当使用时间注意力时,每个 patch(例如在下图中,蓝色的正方形)只与其他帧中相同空间位置的 patch(绿色正方形)进行比较。如果视频包含 T 帧,则每个 patch 只进行 T 次时间上的比较。当使用空间注意力时,每个 patch 仅与同一帧内的 patch(红色 patch)进行比较。

因此,如果 N 是每帧中的 patch 数,则分割空间 - 时间注意力只对每个 patch 执行一共(T+N)次比较,而不是联合空间 - 时间注意力的方法所需的(T×N)次比较。此外,该研究发现与联合空间 - 时间注意力相比,分割空间 - 时间注意力不仅更有效,而且更准

(编辑:南通站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读