deep-learning - 注意力机制到底是真正的注意力还是只是再次回顾内存?

标签 deep-learning attention-model

在阅读注意力机制时,我对注意力这个术语感到困惑。它与我们通常定义中描述的注意力本质相同吗?

最佳答案

例如,在机器翻译任务中,直观上相当于输出翻译后的单词,然后回溯所有文本的内部内存,以决定接下来生成哪个单词。这似乎是一种浪费,根本不是人类正在做的事情。事实上,它更类似于内存访问,而不是注意力,在我看来,这有点用词不当(更多内容见下文)。尽管如此,这并没有阻止注意力机制变得相当流行,并且在许多任务上表现良好。

关于deep-learning - 注意力机制到底是真正的注意力还是只是再次回顾内存?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54964953/

相关文章:

tensorflow - Keras 不同注意力层之间的差异

tensorflow - 如何将 LSTM 的先前输出和隐藏状态用于注意力机制?

python - 如何使用注意力机制在多层双向中操纵编码器状态

python - 使用 Bahdanau Attention 的上下文向量形状

azure - Azure DSVM 上的 Theano

python - 训练的 Tensorflow CNN 回归 MSE 高于测试

c++ - 用于行人识别的 tiny-dnn 错误

haskell - 使用 Haskell Grenade 为自动编码器建模

python - 不适用于 Keras 框架的示例

parallel-processing - Pytorch softmax沿着不同的掩码没有for循环