视频中的自监督学习:3篇“重构”的论文

2021-07-08
0

在之前Space-Time Cubic Puzzles的论文中,就提到了一些用重构的方式,来提取视频时空特征的论文,这里粗略过一下

1.Generating Videos with Scene Dynamics-NIPS-2016

说的是把GAN推广到视频上,新奇的是网络分了foreground stream和background stream,其中foreground是三维的反卷积做上采样,合成视频;background顾名思义是背景,就是二维的反卷积,这个stream生成的图片作为背景,在时域上是不变的。
不过它只生成了1秒多的视频(64 x 64 x 32帧)。
在这里插入图片描述

Our intention is that m(z) can be viewed as a spatio-temporal mask that selects either the foreground f(z) model or the background model b(z) for each pixel location and timestep.
By summing the foreground model with the background model, we can obtain the final generation.

2.Spatio-Temporal AutoEncoder for Video Anomaly Detection-MM-2017

直接看图了,要仔细看再翻细节好了
在这里插入图片描述

3.Reconstruction Network for Video Captioning-CVPR-2018

  • 本身的任务是类似于给视频加描述语,直观地想象这个问题就是下图中的Encoder-Decoder结构,也就是把每一帧图像提特征(比如过预训练CNN),变成Seq2Seq的问题。
  • 文章是多整了一步,把Decoder的输出又重构了图像特征,去做loss,这样就有两个loss了(Encoder-Decoder的loss,reconstruction的loss),整个网络实际上就是两个相连的Encoder-Decoder

在这里插入图片描述

https://blog.csdn.net/weixin_42443072/article/details/115555869

相关信息

评论