我不明白文章中有关 VGGNet 的一段话。也许有人可以帮忙。
在我看来,卷积层中的权重数量是
p=w*h*d*n+n
其中 w 是过滤器的宽度,h 是过滤器的高度,d 是过滤器的深度,n 是过滤器的数量。
文章中写道:
假设三层 3 × 3 卷积堆栈的输入和输出都有 C 个 channel ,则堆栈参数化为 3*(3^2*C^2) = 27C^2 重量;同时,单个 7 × 7 转换。层需要 7^2*C^2 = 49C^2 参数。
我不明白,这里的 channel 是什么意思,以及为什么使用这个公式。
有人可以向我解释一下吗?
提前致谢。
最佳答案
你的直觉是正确的;我们只需要稍微解开他们的解释即可。对于第一种情况:
w = 3 # filter width
h = 3 # filter height
d = C # filter depth (number of channels is same as number of input filters; eg RGB is C=3)
n = C # number of output filters/channels
这将生成 whdn = 9C^2
参数。然后,他们还说有三个堆叠在一起,那就是 27C^2
。
对于单个 7x7
过滤器,则都是相同的 7x7xCxCx1
。
最后的区别是您在原始帖子的末尾再次添加 n
;这就是偏差项,在 VGG 中它们会跳过(很多人会跳过偏差项;它们的值在某些设置中是有争议的)。
关于machine-learning - 理解论文中关于 VGGNet 的一段话,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48112116/