最佳答案
两个原因 -
理论 - 两个独立事件 A 和 B 同时发生的概率由 P(A).P(B) 给出。如果我们使用 log,即 log(P(A)) + log(P(B)),则很容易将其映射为总和。因此,更容易将神经元激发“事件”处理为线性函数。
实用 - 概率值在 [0, 1] 中。因此,将两个或多个这样的小数相乘很容易导致浮点精度算术中的下溢(例如,考虑乘以 0.0001*0.00001)。一个实用的解决方案是使用日志来消除下溢。
关于math - 为什么我们在深度学习中使用对数概率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63334122/