如果某个层中的 prelu 权重接近 1,而在其他层中它们接近 0,那么 prelu 权重的解释是什么?
周围没有太多的 prelu 文献,任何帮助都会非常有帮助!
最佳答案
PRelu 公式为 this :
正如你所看到的,如果a
被学习到在0左右,那么f(x)
几乎等于普通的relu,并且来自负激活的梯度不改变网络。简而言之,网络不“想要”在任何方向上调整不活动的神经元。实际上,这也意味着您可以通过在这一层使用 relu 来加快训练速度。而且这种非线性确实很重要。
相反,当a
大约为1时,f(x)
几乎等于x
,即,就像不存在非-线性。这意味着该层可能是多余的,并且网络有足够的自由度在没有它的情况下做出决策边界。
关于machine-learning - Prelu权重的解释,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48615862/