在通过卷积网络传递视频帧并获得输出特征图后,如何将该数据传递到 LSTM?另外,如何通过 CNN 将多个帧传递给 LSTM?
在其他作品中,我想用 CNN 处理视频帧以获得空间特征。然后我想将这些特征传递给 LSTM 以对空间特征进行时间处理。如何将 LSTM 连接到视频功能?例如,如果输入视频是 56x56,然后在通过所有 CNN 层时,假设它以 20:5x5 的形式出现。这些是如何逐帧连接到 LSTM 的?他们应该先通过一个全连接层吗?
谢谢,乔恩
最佳答案
基本上,您可以展平每一帧特征并将它们输入到一个 LSTM 单元中。 CNN 也是如此。您可以将 CNN 的每个输出馈送到一个 LSTM 单元中。
对于FC,由你决定。
参见 http://www.eecs.berkeley.edu/Pubs/TechRpts/2014/EECS-2014-180.pdf 的网络结构.
关于video - 如何将视频特征从 CNN 传递到 LSTM?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36992340/