math - 为什么我们在深度学习中使用对数概率?

标签 math deep-learning nlp lstm

我在阅读“神经网络的序列到序列学习”论文时感到很好奇。 事实上,不仅这篇论文,很多其他论文都使用对数概率,这有什么原因吗? 请检查所附照片。

enter image description here

最佳答案

两个原因 -

  1. 理论 - 两个独立事件 A 和 B 同时发生的概率由 P(A).P(B) 给出。如果我们使用 log,即 log(P(A)) + log(P(B)),则很容易将其映射为总和。因此,更容易将神经元激发“事件”处理为线性函数。

  2. 实用 - 概率值在 [0, 1] 中。因此,将两个或多个这样的小数相乘很容易导致浮点精度算术中的下溢(例如,考虑乘以 0.0001*0.00001)。一个实用的解决方案是使用日志来消除下溢。

关于math - 为什么我们在深度学习中使用对数概率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63334122/

相关文章:

c++ - 'sqrt' 不是 'std' 的成员

tensorflow - 属性错误 : module 'tensorflow.estimator' has no attribute 'SessionRunHook'

python - 在不使用嵌套循环的情况下查找所有 word2vec 编码对的余弦距离

java - 简单的安卓计算器应用程序

math - 二进制文件中的熵 - 目的是什么?

R 深网包 : how to add more hidden layers to my neural network?

java - 使用 NLP 进行句子检测

python-3.x - wordnet python-nltk 接口(interface)是否包含任何语义相关性度量?

excel - 将儒略日期(5 或 4 个字符)转换为公历,反之亦然

python - 属性错误 : module 'PIL.Image' has no attribute 'register_extensions'