video - 如何将视频特征从 CNN 传递到 LSTM？

标签 video tensorflow lstm

在通过卷积网络传递视频帧并获得输出特征图后，如何将该数据传递到 LSTM？另外，如何通过 CNN 将多个帧传递给 LSTM？
在其他作品中，我想用 CNN 处理视频帧以获得空间特征。然后我想将这些特征传递给 LSTM 以对空间特征进行时间处理。如何将 LSTM 连接到视频功能？例如，如果输入视频是 56x56，然后在通过所有 CNN 层时，假设它以 20:5x5 的形式出现。这些是如何逐帧连接到 LSTM 的？他们应该先通过一个全连接层吗？谢谢，乔恩

最佳答案

基本上，您可以展平每一帧特征并将它们输入到一个 LSTM 单元中。 CNN 也是如此。您可以将 CNN 的每个输出馈送到一个 LSTM 单元中。

对于FC，由你决定。

参见 http://www.eecs.berkeley.edu/Pubs/TechRpts/2014/EECS-2014-180.pdf 的网络结构.